Några rader om det nya protokollet


Albert Siepert Points Out Highlights of Apollo 10 Liftoff to Belgium King and Queen. Foto: NASA

Den första februari 2012 driftsattes protokoll 1.1 för K-samsök. Förändringen är genomgripande i K-samsöks utveckling på mer än ett sätt, och rör sig i en riktning på kan sägas skiljer sig från hur K-samsök tidigare har fungerat. I den här texten presenteras och förklaras de främsta förändringarna. Förhoppningen är att den fortsatta utvecklingen av K-samsök ska förbättra möjligheterna både för användare och informationsförvaltare. Det gamla protokollet (1.0) driftas fram till halvårsskiftet 2013, men kommer efter detta datum inte längre att vara bakåtkompatibelt.

Den grundläggande idén kring protokollförändringen är att möjliggöra för K-samsöks data att bli mer semantiskt. Detta innebär i korthet att informationsmängderna sitter ihop med andra informationsmängder, på meningsfulla sätt. När information beskrivs semantiskt på webben pratar man om webbsemantik. Och med data som är välbeskriven ur ett webbsemantiskt perspektiv kan man presentera sin information på ett meningsfullare sätt för användaren.

Den kanske främsta förändringen i protokoll 1.1 är introduktionen av Agenter, Event och Koncept, som objektstyper. Ett objekt i K-samsök är ett unikt objekt som en applikation kan hantera. Objekten kan länkas tillvarandra och kan tjänstgöra som fokus för en användare. Det som skiljer dessa objekt från de som redan tidigare var objekt i K-samsök är att det inte i normalfallet finns någon representation av dem i verkligheten. På så sätt kan man säga att dessa nya objektstyper utgör byggklossar som förenar data, snarare än som utgörs av data. Vi hade möjligheten att introducera en semantisk modell för K-samsök som inte hanterar Agenter, Event och Koncept som egna objekt, vilket på sätt och vis hade varit enklare. Den nuvarande lösningen ger dock större möjligheter till att rent praktiskt se vad semantiken kan göra med vårinformation på relativt kort sikt.

Ett exempel. Slaget vid Lützen är en historisk händelse somi K-samsök beskrivs som en typ av Event. Kopplad till detta event är kung Gustaf II Adolf, som är en Agent. Kopplingen mellan kungen och händelsen beskrivs som att han ”var närvarande vid”. Ungefär så här:
Gustaf II Adolf (Agent) var närvarande vid (Relation) Slaget vid Lützen (Event).

I en webbsemantisk struktur är all information beskriven på det här sättet, med ett subjekt, ett predikat och ett objekt. Denna struktur behöver dock aldrig användaren förstå, det räcker med att läsa innehållet i den, via den applikation man använder. Med protokoll 1.1 ger vi användaren möjlighet att ta fokus på t ex Agenten Gustaf II Adolf, och därmed se alla föremål som är kopplade till honom, och vilka händelser han var med i under sitt liv. Här kan vi också koppla in Koncept, som ”Stormaktstid”, för att ytterligare förbättra informationen kring föremålen.

Protokoll 1.1 möjliggör för alla informationsleverantörer att bibehålla hög granuläritet på sin information när den aggregeras av K-samsök, men protokollet möjliggör också för alla informationsägare att på ett meningsfullt sätt koppla ihop olika informationsresurser med varandra, mellan institutioner och mellan egna objekt. Informationen i de egna databaserna blir på det viset mer meningsfulla när de aggregeras av K-samsök.

>> Henrik Summanen jobbar med verksamhetsutveckling och K-samsök.

Europeanas rättighetsmodell

Datan som levereras från K-samsök till Europeana visas i portalen www.europeana.eu samt är tillgängligt via Europeanas API. För att förtydliga rollfördelning samt hur data får återanvändas (av Europeana själva samt av tredje part) har Europeana tagit fram ett avtal, Data Exchange Agreement. När jag skriver ”objekt” nedan syftar jag på materialet hos källan (den scannade bilden, ljudklippet, filmklippet, den scannade boken mm).

Från och med årsskiftet 2011-2012 gäller Europeanas nya avtal för institutioner som levererar information till Europeana, direkt eller via en aggregator. Antingen skriver institutionen avtal själv med Europeana eller så skriver aggregatorn (t ex K-samsök) avtalet. I det senare fallet ska aggregatorn säkerställa det som står i avtalet med sina respektive leverantörer.

I avtalet görs skillnad på metadata och preview. Metadata definieras som all textdata kopplat till ett objekt i källdatabasen som levereras till Europeana. Det kan således även handla om information som i andra sammanhang inte brukar klassas som metadata. Preview kan vara en tumnagel, ett kort ljudklipp mm som Europeana sparar ner och lagrar på sina servrar. Själva objektet i källdatabasen lagras dock inte utan görs tillgängliga via länkar till objektet. Europeana lagrar således endast metadata och preview. Enligt avtalet gäller följande för dessa:

  • Metadata – All metadata som skördas till Europeana får märkningen CC0 (Creative Commons zero). Detta innebär att metadatan är fri att använda utan restriktioner. Europeana definierar hur det är önskevärt att man attribuerar när man använder information från Europeana i ett icke-bindande Data Use Guidlines. Har en institution metadata som de inte vill ska få användas fritt ombeds de att inte levererade dessa metadata. Metadatan behöver inte vara märkt på detta sätt hos informationsförvaltaren (t ex ett museum) eller hos aggregatorn (t ex K-samsök) utan det görs vid leveransen till Europeana. Syftet med denna märkning är att kunna tillgängliggöra datan som Linked Oped Data.
  • Preview – Det finns ett obligatoriskt element i Euopeanas datamodell (edm:rights) mot vilken man mappar den upphovsrättsliga statusen för objektet. Den märkning man väljer gäller återanvändande av såväl preview och det objekt metadatan beskriver och länkar till.

Avtalet gäller från årsskiftet men CC0 för metadata börjar gälla 1 juli 2012.

Europeanas modell för licenser

Previews och de objekts som länkas till ska märkas upp enligt följande modell:

  • Public Domain MarkAnvänds för objekt vars skyddstid har gått ut (maximalt 70 år efter upphovsmannens död) eller som aldrig skyddats av upphovsrätt.
  • Creative Commons Zero – Används om informationsförvaltaren vill avsäga sig alla rättigheter till objektet och placera det i Public Domain.
  • Creative Commons De sex ordinarie licenserna som bygger på att informationsförvaltaren äger upphovsrätten till materialet.
  • Unknown – Avvänds för objekt där upphovsmannen inte är känd, sk Orphan Works.
Det finns även en möjlighet att leverera metadata om objekt som är helt skyddade av upphovsrätten. Dessa märks på följande sätt:
  • Rights reserved – free accessObjetet finns tillgängligt för alla i sin helhet men får inte åtaranvändas utan tillstånd.
  • Rights reserved – paid accessObjektet finns tillgänglit på nätet men måste betala för att se det i sin helhet (t ex via en engångskostnad eller prenumeration)
  • Rights reserved – restricted accessTillgången till objektet är begränsat på andra sätt än att användaren måste betala för det, t ex registrering eller annan kontrollerad tillgång.
Det är möjligt att sätta dessa licenser för ett helt dataset (t ex Riksantikvarieämbetets fotodatabas) vid leveransen till Europeana. För att undvika redundans är det dock önskevärt att denna märkning görs i källdatabasen och/eller i K-samsök.

 Läs mer om märkningen i The Europeana Licensing Framework (pdf)

Jag kommer i ett kommande inlägg gå närmare in på hur detta påverkar K-samsök samt ge förslag på möjliga vägval.

>> Johan Carlström – Systemförvaltare för K-samsök.

Om-mappning mot Europeana 2012

K-samsök är en nationell nod för leverans av data till Europeana (sedan hösten 2010). Detta innebär att data som levereras till K-samsök semi-automatiskt levereras vidare till Europeana (vi måste skapa ett dataset som skördas manuellt av Europeana).

Under våren kommer vi att påbörja ett arbete med att se över mappningen mellan K-samsöks protokoll och Europeanas EDM (Europeana Data Model).

Vår plan är att göra ett första utkast som vi sedan publicerar här (eller på annan lämplig plats) för att få  feedback från de institutioner som levererar data till K-samsök och från andra instresserade. En exakt tidsplan är inte helt klar men vårt mål just nu är att bli klara före 1 juli (då Europeanas Data Exchange Agreement börjar gälla i sin helhet).

>>Johan Carlström – systemansvarig för K-samsök

K-samsöksdata i Europeanas LOD-pilot

I o m Europeanas nya Data Exchange Agreement som fullt börjar gälla fr o m 1 juli kommer de ha en möjlighet att tillgängliggöra metadata som Linked Open Data (LOD). Metadata från K-samsök är en delmängd av den data som tillgängliggörs som LOD i en första pilot. Denna film visar pedagogiskt vad LOD är för något och vilken nytta det medför:


Linked Open Data from europeana on Vimeo.

I en första pilot tillgängliggör Europeana 2,4 miljoner texter bilder videos, ljud mm. Metadatan publiceras under den öppna metadatalicensen Creative Commons Zero (CC0) vilket gör metadatan (men inte media som ljud, bild osv) fri att använda vilket gör att Europeana kan ligga till grund för utveckling och tillväxt för digitala lösningar baserat på kulturarvsinformation.

K-samsök fungerar på många sätt som Europeana och tillgänggliggör bl a data i rdf-format med unika identiteter (URI:er) som vi tillgängliggör via ett API. Detta underlättar när de båda systemen ska ”prata” med varandra.

Vi kommer under året att se över informationsflödet institution-K-samsök-Europeana så att de digitala flödena harmoniserar med varandra för att underlätta leverans av metadata och återanvändning.

>> Johan Carlström – systemförvaltare för K-samsök

Processen för leverans av ny information till K-samsök

Vi har försökt att kartlägga processen kring leverrens av ny information till K-samsök och Europeana. Anledningen är att tydliggöra för nya institutioner och oss själva vilka viktiga punkter det finns vid ett leveransförfarande.

Använder en institution ett system som redan kan leverera information till K-samsök (Primus, Carlotta, MuseumPlus) är vägen ganska kort från första kontakt till leverans. Är systemet inte bekant för K-samsök ingår fler steg.

Viktiga delar:

  • Vilken typ av system använder institutionen?
  • Uppmärkning av media med öppna licenser
  • Vill institutionen att informationen levereras vidare till Europeana?

Detta är fortfarande arbetsmaterial så kom gärna med feedback, frågor och kommentarer.

>>Johan Carlström – systemförvaltare

Förändringar i API:et i o m version 1.1

En ny metod har tillkommit i API:et i o m version 1.1, getRelationTypes:

getRelationTypes

Visar relationer som ett objekts context kan ha till ett annat objekt. Metoden retunerar namn med dess invers(reverse) samt svenska titeln.

PARAMETRAR

relation (obligatorisk)
Med den här parametern anger du vilken relationstyp du vill lista. Om du vill se alla relationstyper så anger du ”all”.

Exempel
http://kulturarvsdata.se/ksamsok/api?method=getRelationTypes&relation=all&x-api=test

Denna information finns även i dokumentationen för API:et

/Johan Carlström – systemansvarig K-samsök

Ändringar och tillägg i K-samsök 1.1

Under hösten 2011 utvecklades K-samsök i en version 1.1. Fokus låg på att vidareutveckla protokollet så att det på ett smartare sätt stödjer webbsemantik och bredda K-samsök för att kunna hatera flera typer av information, bl a kring personer och händelser. Den nya protokollet är framtaget av Riksantikvarieämbetet i nära samverkan med de institutioner som hittills levererar data till K-samsök. Nedan följer de ändringar som gjorts.

Än så länge återstår uppdatering av dokumentationen samt de engelska sidorna.

Läs mer om ändringarna i K-samsök 1.0 till 1.1 (pdf)

Objekttyper (itemType)

För att gruppera objekttyperna har en övergripande typ införts (itemSuperType) som är obligatorisk. Den är en URI som itemType och måste ha något av värdena (prefixat av http://kulturarvsdata.se/resurser/EntitySuperType#):

Nya superobjektstyper (itemSuperType)

  • Agent (agent)
  • Fysiskt ting (object)
  • Händelse (event)
  • Koncept (concept)

Alla pre-1.1-objekttyper hamnar i strukturen under Fysiskt ting.

Nya objektstyper (itemType)

  • Karta (map)
  • Kulturlämning (monument)
  • Byggnad (building)
  • Person (person)
  • Organisation (organization)
  • Grupp (group)
  • Historisk händelse (event)
  • Utställning (display)
  • Koncept (concept)

Förändrade objektstyper

  • Objekttypen Objektavbildning (objectImage) har utgått
  • ”Miljö” (site) har delats upp i tre delar: Byggnad (building), Kulturlämning (monument) och Kulturmiljö (culturalLandscape). Miljö finns kvar till vidare för bakåtkompatibilitet.

De nya objekttyperna har som tidigare prefixet http://kulturarvsdata.se/resurser/EntityType#. K-samsök kräver i o m version 1.1 att itemType verkligen är någon av de definierade typerna för att en post ska godkännas vid skördnig till K-samsök.

RDF-resurser för itemType och itemSuperType kommer finnas att läsa här.

Agenter

Eftersom Agenter är aktörer (omfattar både personer, organisationer och grupper) finns behov av kontexter som hanterar liv, verksamhet och död. Kontexterna har ändrats till att bli mer allmängiltiga create-interaction-destroy (med underkategorier), för att underlätta detta. Det finns också behov av flera olika nya relationer med anledning av de nya objektstyperna t.ex. för att beskriva släktskap. Dessa listas nedan.

För agenter har nya fält tillkommit på toppnivån. Det handlar om:

  • name
  • gender
  • title
  • nameAuth
  • nameId
  • firstName
  • surname
  • organization.
  • fullName

Samtliga tillägg är från foaf som har använts i tidigare protokollversioner (ex http://xmlns.com/foaf/0.1/#name).

Event

Event är händelser av makro-karaktär, som historiska händelser, bröllop, slag, utställningar etc som är avgränsningsbara i tid och rum. De ska inte blandas ihop med kontexterna som är händelser i ett enskilt objekts livscykel.

Koncept

Koncept (SKOS Concept) är företeelser som inte är avgränsningsbara i tid och rum. T ex Vikingatid, Stormaktstid, Sjöfart etc. Dessa objektstyper används huvudsakligen för att göra mappningar från museer med ett visst ansvarsområde (t ex Historiska museet=Medeltid/förhistorisk tid). Koncept kopplas med fördel direkt mot Wikipedia.

 

Kontexttyper (contextType)

I o m version 1.1 har kontexttyperna förändrats. Precis som för objekttyperna så har en obligatorisk supertyp (contextSuperType) införts för de generella (prefixat av http://kulturarvsdata.se/resurser/ContextSuperType#):

  • Skapa (create)
  • Interagera (interact)
  • Upphöra (cease)

Kontexttyperna som tillkommit och avskaffats är:

Tillkommit

  • Starta (start)
  • Designa (design)
  • Producera (produce)
  • Visa (display)
  • Verka (act)
  • Avföra (dismiss)
  • Avsluta (stop)

Andra förändringar

  • Belägen (exists) har avskaffats.
  • Fotograferad (reproduced) har blivit Reproducerad (reproduce)
  • Tillverkad (create) har flyttat till att bli en supertyp.
  • Förstörd (destroyed) har övergått till supertypen Upphöra (cease)

ContextLabel har förändrats, iom 1.1 indexeras alltid en inskickad contextLabel om den finns istället för rdf-resursen. Värden för contextType (och contextSuperType) måste vara enligt standardiserad värdemängd för att poster ska indexeras.

RDF-resurser för contextType och contextSuperType finns här.

Relationer

Några nya relationer har tillkommit på toppnivå, dvs mellan objekt. De flesta har att göra med de nya objekttyperna.

Nya relationer

  • isMentionedBy /nämns av (k-samsöks NS)
  • mentions/nämner (k-samsöks NS)
  • child/förälder till (BIO, prefix http://purl.org/vocab/bio/0.1/)
  • parent/barn till (BIO)
  • mother/har mor (BIO)
  • father/har far (BIO)
  • P12F.occurred_in_the_presence_of/händelsen skedde i närvaro av (CIDOC-CRM, prefix http://www.cidoc-crm.org/rdfs/cidoc-crm#)
  • P12B.was_present_at/var närvarande vid händelse (CIDOC-CRM)
  • P11F.had_participant/händelsen hade deltagare (CIDOC-CRM)
  • P11B.participated_in/deltog i händelse (CIDOC-CRM)
  • P107B.is_current_or_former_member_of/är eller var tidigare medlem i (CIDOC-CRM)
  • P107F.has_current_or_former_member/har eller hade medlem (CIDOC-CRM)

Notera att CIDOC-CRM-relationernas index/värden inte har med P-prefixet, utan bara namnet, t ex was_present_at.

Roll-relationer

Ett antal nya relationer som utgår från kontexten och som pekar på agenter har också tillkommit i k-samsöks NS och från CIDOC-CRM. Nya kontext-/roll-relationer är (i k-samsöks NS om inget annat anges) :

  • Beställare (client)
  • Kompositör (composer)
  • Författare (author)
  • Arkitekt (architect)
  • Uppfinnare (inventor)
  • Scenograf (scenographer)
  • Designer (designer)
  • Producent (producer)
  • Arrangör (organizer)
  • Regissör (director)
  • Fotograf (photographer)
  • Målare (painter)
  • Byggare (builder)
  • Byggmästare (masterBuilder)
  • Byggherre (constructionClient)
  • Gravör (engraver)
  • Myntmästare (mintmaster)
  • Konstnär (artist)
  • Konstruktör (designEngineer)
  • Snickare (carpenter)
  • Murare (mason)
  • Tekniker (technician)
  • Förläggare (publisher)
  • Publicist (publicist)
  • Musiker (musician)
  • Skådespelare (actorActress)
  • ryckare (printer)
  • Påskrift av (signer)
  • Upphittare (finder)
  • Förvärvare (abandonee)
  • Förmedlare (intermediary)
  • Köpare (buyer)
  • Säljare (seller)
  • Generalagent (generalAgent)
  • Givare (donor)
  • Deponent (depositor)
  • Återförsäljare (reseller)
  • Inventerare (inventoryTaker)
  • Grävare (excavator)
  • Undersökare (examinator)
  • Konservator (conservator)
  • Arkivbildare (archiveContributor)
  • Intervjuare (interviewer)
  • Informant (informant)
  • Patentinnehavare (patentHolder)
  • Brukare (user)
  • Skanneroperatör (scannerOperator)
  • Bildredaktör (pictureEditor)
  • Arbets- eller uppdragsgivare (employer)
  • Har nuvarande eller tidigare förvaltare (P49F.has_former_or_current_keeper CIDOC-CRM)
  • Har nuvarande eller tidigare ägare (P51F.has_former_or_current_owner CIDOC-CRM)
  • Skapades av (P94B.was_created_by CIDOC-CRM)
  • Rättigheter ägs av (P105F.right_held_by CIDOC-CRM)

Notera att CIDOC-CRM-relationernas index/värden inte har med P-prefixet, utan bara namnet, tex was_created_by. Notera också att fn kan man bara ange dessa relationer utgående från kontextet, och inte från ”andra hållet” från den utpekade agenten.

”Kontextindex” med typ och supertyp

Nytt är också i o m införandet av kontextsupertyper att ”kontextindex”, dvs tex use_fromTime även bildas med supertypen. Om ett fromTime-värde finns i ett kontext där kontexsupertypen är ”create” och kontexttypen är ”start” så kommer värdet indexeras i både create_fromTime och start_fromTime.

Version 1.1 driftsatt

Uppdaterat 2012-02-02: Tyvärr kommer vi inte att hinna uppdatera sidan som beskriver protokollet idag. För en kort sammanfattning över ändringar, se sidan med protokollversioner.

Nu har vi driftsatt version 1.1 av K-samsök och allt har gått bra. Vad som återstår är att färdigställa dokumentationen vilken kommer att publiceras under dagen. Informationen eller länkar till den kommer sedan att läggas ut här på bloggen.

Hälsningar
Johan Carlström – systemansvarig för K-samsök