Kategori: Linked Open Data

K-samsök <3 Wikipedia

Wikipedia är en viktig del av infrastrukturen för digitalt kulturarv — den encyklopediska informationen som finns där om till exempel historiska byggnader eller fornlämningar når ut till många fler människor än vad enskilda minnesinstitutioners egna informationssidor kan göra. Här är tre kopplingar som finns idag mellan kulturarvsdatan i K-samsök och Wikipedia eller Wikimedia Commons:

Faktarutor på Wikipedia: Med hjälp av K-samsök kan du skapa faktarutor i Wikipedia för artiklar om fornlämningar och byggnader. I dessa faktarutor finns det länkar till t ex Fornsök vilket också gör att länken till Wikipediaartikeln visas på fornlämningens eller byggnadens sida i Kringla (se nedan). Mer information och instruktioner finns här!

Länkar mellan Wikipedia/Wikimedia Commons och K-samsök: Det finns en funktion som identifierar länkar till K-samsök från Wikipedia och Wikimedia Commons. Länkarna sparas i vår databas för användargenererad data och visas i Kringla för att användare av Kringla lättare ska kunna hitta mer information och/eller se fler bilder på objektet. Här finns ett exempel på en fornlämning med Wikipedia- och Wikimedia Commons-länkar.

K-samsöksgadget på Wikipedia: Användare av svenskspråkiga Wikipedia kan använda en funktion som gör det enkelt att se träffar på sidnamnet i K-samsök. En inloggad användare kan aktivera den under Inställningar -> FinesserDokumentation finns här.

Tillgång till tusentals kulturarvslänkar

Bild: Calvinius [CC-BY-SA-3.0], via Wikimedia Commons
Bild: Calvinius [CC-BY-SA-3.0], via Wikimedia Commons

Nu går det att komma åt användarskapade kulturarvslänkar genom ett nytt API. I K-samsöks databas för användargenererat innehåll finns just nu drygt 60 000 länkar mellan olika kulturarvsobjekt (fotografier, fornlämningar, byggnader, museiföremål m m) i K-samsök samt mellan K-samsök och Wikipediaartiklar, Wikimedia Commons och forskningspublikationer i Libris. Till exempel länkar mellan runstenar i FMIS och relevant forskning i Libris samt Wikipediasidor om runstenarna. Dessutom finns kopplingarna till alla bilder från Wiki Loves Monuments. Länkarna i databasen skapas av användare i Kringla och i Wikipedia/Wikimedia och därför ökar antalet länkar hela tiden.

Från och med idag är det möjligt för alla att hämta data från länkdatabasen. Just nu finns bara några metoder implementerade och dokumentationen är begränsad, så vi tar gärna emot förslag på framtida förbättringar. Du hittar API-dokumentationen här!

Har du frågor, feedback eller förslag, hör gärna av dig till ksamsok@raa.se.

Förslag på ny rättighetsmodell

För att skapa bättre harmoni med Europeana har vi reviderat K-samsöks rättighetsmodell (läs den nuvarande här). Nedan publicerar vi ett förslag på ny rättighetsmodell som vi vill ha kommenterar på. Modellen är tänkt att användas för att specificera vad en användare får göra med inlänkat material (t ex ett dokument, en digital bild eller ett filmklipp). Allt material vars metadata levereras till K-samsök ska märkas upp efter denna modell.

I denna modell ingår även att märka all levererad metadata med CC0 vilket skulle innebära att vi kan tillgängliggöra metadatan i K-samsök som Linked Open Data. Detta kommer att kräva en omformulering i avtalet mellan Riksantikvarieämbetet (i egenskap av förvaltare av K-samsök) och institutitutioner som levererar data. Vi jobbar med ett reviderat avtal och kommer att publicera det här, förhoppningsvis inom de närmaste veckorna.

Detta innebär även att rdf-resursen för rättigheter kommer att uppdateras vilket kan innebära om-mappning. Den kommer dock att vara bakåtkompatibel till stor del då t ex Creative Commons-licenser ser ut som tidigare. Som du säkert märker är modellen en kopia av Europeanas modell.

Förslaget

    • Public Domain Mark – Används för objekt vars skyddstid har gått ut (maximalt 70 år efter upphovsmannens död) eller som aldrig skyddats av upphovsrätt.
    • Creative Commons Zero – Används om informationsförvaltaren vill avsäga sig alla rättigheter till objektet och placera det i Public Domain.
    • Creative Commons – De sex ordinarie licenserna som bygger på att informationsförvaltaren äger upphovsrätten till materialet.
      • ERKÄNNANDE (CC BY)
      • ERKÄNNANDE DELA LIKA (CC BY-SA)
      • ERKÄNNANDE INGA BEARBETNINGAR (CC BY-ND)
      • ERKÄNNANDE ICKE KOMMERSIELL (CC BY-NC)
      • ERKÄNNANDE ICKE KOMMERSIELL DELA LIKA (CC BY-NC-SA)
      • ERKÄNNANDE ICKE KOMMERSIELL INGA BEARBETNINGAR (CC BY-NC-ND)
    • Unknown – Avvänds för objekt där upphovsmannen inte är känd, sk Orphan Works.

Det finns även en möjlighet att leverera metadata om objekt som är helt skyddade av upphovsrätten. Dessa märks på följande sätt:

      • Rights reserved – free access – Objektet finns tillgängligt för alla i sin helhet men får inte återanvändas utan tillstånd.
      • Rights reserved – paid access – Objektet finns tillgängligt på nätet men måste betala för att se det i sin helhet (t ex via en engångskostnad eller prenumeration)
      • Rights reserved – restricted access – Tillgången till objektet är begränsat på andra sätt än att användaren måste betala för det, t ex registrering eller annan kontrollerad tillgång.

Vi är osäkra på om de tre sista ska få en svensk översättning eller om det görs i applikationerna. Vad tycker du?

Läs tidigare inlägg om Europeanas och K-samsöks rättighetemodeller här och här.

>> Johan Carlström – systemförvaltare för K-samsök

Vad innebär Europeanas rättighetsmodell för K-samsök?

K-samsök levererar data till Europeana som visas i portalen www.europeana.eu. Informationen i Europeana är även nåbar via ett API. Sedan årsskiftet använder Europeana en ny rättighetsmodell som jag tidigare skrivit om.

Enligt det avtal/överenskommelse som informationsleverantörer skriver med Riksantikvarieämbetet så gäller följande:

”K-samsök möjliggör uppmärkning av rättigheter på objektsnivå och Riksantikvarieämbetet uppmanar IF att märka upp sina objekt för att tydliggöra vad tillämpningsutvecklare och andra användare får göra med dessa.”

Idag går det att i K-samsök att märka upp metadata och media (bilder, ljud mm) med olika licenser. Detta görs idag enligt denna modell:

  • Allmänt tillgängligt (public) – Objektet är allmänt tillgängligt utan restriktioner (motsvarande ”public domain”), inkluderar objekt med utgången skyddstid och information som inte faller inte ramen för upphovsrätten, t ex fakta.
  • Okänd status (unknown) – Objektets upphovsrättsstatus är okänd, sätts automatiskt på alla objekt som inte är uppmärkta av inforamtionsförvaltaren. Detta innebär att det blir svårt att återanvända informationen och därför uppmanas informationsförvaltaren att märka upp informationen. Även s k Orphan works där skyddstiden bedöms ha gått ut kan använda ”Okänd”.
  • Creative Commons – En informationsförvaltare kan märka upp informationen med de sex Creative Commonlicenserna där ”2.5 Sverige” (exempel) är satt som standard.
  • Public Domain Mark – Public Domain Mark är en icke juridiskt bindande märkning av material där upphovsrätten gått ut eller där materialet inte skyddas av upphovsrätten. Märkningen är framtagen av Creative Commons och används bl a av Europeana.
  • Alla rättigheter reserverade (all rights) – Objektet är helt skyddat av upphovsrätt och institutionen måste kontaktas för att användning ska vara möjlig. Denna variant försvårar återanvändning av informationen och bör undvikas om möjligt.

Det finns en del skillnader mellan denna modell och Europeanas, t ex en del osäkerhet kring all rights (som inte är lika flexibel som hos Europeana) och unknown som, i fallet K-samsök, används som ”slaskpost” för material som inte är uppmärkt hos informationsförvaltarna. Det saknas även licenser för ”public domain dedication”, t ex CC0. K-samsöks modell behöver modifieras för att fungera med fler typer av information i linje med arbetet kring PSI-direktivet och Open Data. Ett annat skäl är att i större utstäckning använda standardiserade och maskinläsbara öppna licenser.

I avtalet står det att Informationsförvaltaren garanterar:

”IF har märkt upp sitt material så att det blir tydligt mot Riksantikvarieämbetet och tredje part hur detta får användas och vidareutnyttjas.”

Även om fler och fler har märkt upp sin data enligt modellen ovan så är det långt från alla som gjort detta idag.

Alla metadata som levereras till Europeana får märkningen CC0 enligt deras Data Exchange Agreement. Detta innebär att metadatan är fri att använda utan restriktioner. I K-samsök är det idag möjligt att märka metadata med andra licenser,  t ex de övriga Creative Commons-licenserna. Detta skapar redundans och det blir svårt för K-samsök att leverera denna data till Europeana. Det medför även otydlighet mot tredjepartsutvecklare som använder K-samsök via API:et.

Otydligheter i avtalet
Det kan i K-samsöksavtalet uppfattas otydligt vad som är att betrakta som objekt, är det metadataobjektet, den digitala representationen (t ex den scannade bilden eller den digitaliserade boken) eller den fysiska artefakten i museets magasin? Det är även otydligt vad som är metadata och vad som är ”content” (dvs den information som metadatan representerar, t ex en scannad bild).

Att viss data idag inte är uppmärkt i K-samsök innebär problem i leveransen till Europeana. I o m att <edm:rights> i Europeanas datamodell är obligatoriskt skapar det problem när det finns icke uppmärkt data i K-samsök. Hittils har dessa varit märkta med ”unknown” i mappningen mot Europeana vilket utifrån definationen ovan är felaktigt (Unknown används för verk med okänd upphovsman).

Möjliga lösningar på detta problem är:

  1. Europeana skördar inte dessa objekt från K-samsök.
  2. Om mediaLicense saknas märks objektet med Rights reserved – free access  i mappningen mot Europeana. Detta är inte den bästa lösningen eftersom även fria objekt kan kommer att få denna märkning. Detta borde dock vara ett minskande problem i takt med att informationsförvaltarna märker upp sin information. Avtalet behöver formuleras om för att detta ska vara möjligt.

Möjliga vägar framåt
Det är önskevärt att informationsflödet från informationsförvaltare, via K-samsök och Europeana till tredje part (via API) går till på ett smidigt och enhetligt sätt. För att underlätta för applikationsutvecklare är det även önskvärt att informationen är uppmärkt på ett enhetligt sätt, oavsett var den hämtas ifrån. Detta gör det enklare att kommunicera vad som gäller kring rättigheter samt möjliggör för Riksantikvarieämbetet att tillgängliggöra informationen i K-samsök som Linked Oped Data. För att uppnå detta behöver vi göra vissa förändringar i K-samsök och det tillhörande avtalet. Dessa  förändringar är: 

  • Alla metadata som levereras till K-samsök får samma öppna licens som är anpassad för metadata,  t ex CC0. CC0 lämpar sig för att det redan används av Europeana och andra institutioner, t ex Kungliga Biblioteket. Detta innebär att <itemLicense> sätts automatiskt i den lokala porten/mappningen. Avtalet behöver omformuleras för att detta ska vara möjligt.
  • Implementera Eurpeanas modell för right statements i K-samsök kopplat till <mediaLicens> för att underlätta aggregering och återanvändning. Förslagsvis utgår vi ifrån rdf-resusern för licsenser och anpassar där det behövs. Avtalet behöver omformuleras för att detta ska vara möjligt.
  • Elementet <image> ersätts av <media> för att kunna användas bredare (t ex för direktlänkar till ljudklipp eller fulldigitaliserade böcker) och enklare kunna mappas mot Europeanas objektstyper. Typen av media definieras via <mediaType>. Här bör det finnas en möjlighet att under en övergångsperiod kunna använda <image> för bakåtkompabilitet.
  • All media som inte är märkt vid skördning till K-samsök märks automatiskt med Rights reserved – free access enligt Europeanas modell.  Detta försvårar förvisso återanvändning men tydliggör vad som gäller, både mot Europeana, tredjepart och slutanvändare (via t ex Kringla). Detta är inte den optimala lösningen men gör att vi slipper filtrera bort media vid skördningen till K-samsök.
  • Hittils har K-samsök inte skördat metadata om objekt som är upphovsrättsskyddat och/eller som användaren måste betala för. Då Europeana har en ambition att ta in mer sådan data (korrekt uppmärkt) finns det ett behov att likrikta K-samsöks ambition kring dessa frågor. Eftersom metadatan är fri skapas ändå förutsättningar att länka ihop denna typ av data med andra källor enligt principerna kring Linked Open Data.
Vad innebär detta för institutionerna som levererar data till K-samsök?
Tanken är att göra den reviderade rättighetsmodellen så bakåtkompatibel som möjligt. Inget av förslagen ovan är beslutade utan är att betrakta som arbetsmaterial.  Vårt mål är dock att ”sätta ner foten” relativt snart, förhoppningsvis redan vid halvårsskiftet då Europeanas Data Exchange Agreement börjar gälla i sin helhet.
Jag är nyfiken på vad ni tycker om förslagen. Är det något som saknas? Kommentera gärna.

>> Johan Carlström – systemförvaltare för K-samsök

Om användargenererat innehåll och Wikipedia


Wikipedia globe in a keychain! Foto: @bastique (Creative Commons by-nc)

Som beskrevs i bloggposten kring det nya protokollet har vi från och med protokoll 1.1 en möjlighet att hantera komponenter i vår information på ett sätt som berikar vår information och gör den mer meningsfull för användaren. Det vi inte tog upp då var att även användaren kommer att ha möjligheten att berika och förfina vår information. Detta görs med hjälp av ett tillägg till K-samsök, som håller reda på relationer mellan objekt, som vi kallar för UGC-hubben. UGC står i det här fallet för User Generated Content –Användaregenererat innehåll.

Varför låter man användaren hantera information? I och med att informationssamhället slår igenom blir det svårt, för att inte säga omöjligt, för informationsförvaltare att ha kontroll över all ”sin” information. Det kan handla om miljontals objekt för ett enskilt museum. Därför är den generella utvecklingsriktningen för digitala resurser att man låter de som intresserar sig för informationen förbättra den på olika sätt. Det kan handla om att tala om att två instanser av objektet ”Drottning Kristina” (från t ex två olika museer) egentligen handlar om samma person, eller att koppla ihop en sko från ett museum, med en hatt från ett annat, via en person som varit ägare ellertillverkare till båda objekten.

I nuläget är detta bara möjligt att göra i Kringla men vi ser över möjligheterna att öppna upp ytterligare.

UGC-hubben möjliggör för tjänster att hämta information som vi själva eller användare har länkat ihop. Detta skapar bättre förståelse för informationen, och högre kvalitet. Ytterligare en del av det hela är att vi som informationsägare bättre kommer att förstå vad våra användare vill ha av oss, eftersom vi kan se vad de vill göra med informationen, och att vi kan se vadsom är mest relevant för dem.

UGC-hubben kommer på sikt även att kunna användas för att länka till en annan stor källa till användargenererad information: Wikipedia. Redan idag ingår Wikimedia Foundation (som driver sajten Wikipedia) som partner i flera viktiga samarbeten med kulturarvsinstitutioner världen över. Det är en tidsfråga innan vi kan låta vårt material berikas av deras genom t ex mobilappar och andra tjänster som sätter ihop information från olika håll, till gagn för användaren.

>>Henrik Summanen jobbar med verksamhetsutveckling och K-samsök på Riksantikvarieämbetet.

Europeanas rättighetsmodell

Datan som levereras från K-samsök till Europeana visas i portalen www.europeana.eu samt är tillgängligt via Europeanas API. För att förtydliga rollfördelning samt hur data får återanvändas (av Europeana själva samt av tredje part) har Europeana tagit fram ett avtal, Data Exchange Agreement. När jag skriver ”objekt” nedan syftar jag på materialet hos källan (den scannade bilden, ljudklippet, filmklippet, den scannade boken mm).

Från och med årsskiftet 2011-2012 gäller Europeanas nya avtal för institutioner som levererar information till Europeana, direkt eller via en aggregator. Antingen skriver institutionen avtal själv med Europeana eller så skriver aggregatorn (t ex K-samsök) avtalet. I det senare fallet ska aggregatorn säkerställa det som står i avtalet med sina respektive leverantörer.

I avtalet görs skillnad på metadata och preview. Metadata definieras som all textdata kopplat till ett objekt i källdatabasen som levereras till Europeana. Det kan således även handla om information som i andra sammanhang inte brukar klassas som metadata. Preview kan vara en tumnagel, ett kort ljudklipp mm som Europeana sparar ner och lagrar på sina servrar. Själva objektet i källdatabasen lagras dock inte utan görs tillgängliga via länkar till objektet. Europeana lagrar således endast metadata och preview. Enligt avtalet gäller följande för dessa:

  • Metadata – All metadata som skördas till Europeana får märkningen CC0 (Creative Commons zero). Detta innebär att metadatan är fri att använda utan restriktioner. Europeana definierar hur det är önskevärt att man attribuerar när man använder information från Europeana i ett icke-bindande Data Use Guidlines. Har en institution metadata som de inte vill ska få användas fritt ombeds de att inte levererade dessa metadata. Metadatan behöver inte vara märkt på detta sätt hos informationsförvaltaren (t ex ett museum) eller hos aggregatorn (t ex K-samsök) utan det görs vid leveransen till Europeana. Syftet med denna märkning är att kunna tillgängliggöra datan som Linked Oped Data.
  • Preview – Det finns ett obligatoriskt element i Euopeanas datamodell (edm:rights) mot vilken man mappar den upphovsrättsliga statusen för objektet. Den märkning man väljer gäller återanvändande av såväl preview och det objekt metadatan beskriver och länkar till.

Avtalet gäller från årsskiftet men CC0 för metadata börjar gälla 1 juli 2012.

Europeanas modell för licenser

Previews och de objekts som länkas till ska märkas upp enligt följande modell:

  • Public Domain MarkAnvänds för objekt vars skyddstid har gått ut (maximalt 70 år efter upphovsmannens död) eller som aldrig skyddats av upphovsrätt.
  • Creative Commons Zero – Används om informationsförvaltaren vill avsäga sig alla rättigheter till objektet och placera det i Public Domain.
  • Creative Commons De sex ordinarie licenserna som bygger på att informationsförvaltaren äger upphovsrätten till materialet.
  • Unknown – Avvänds för objekt där upphovsmannen inte är känd, sk Orphan Works.
Det finns även en möjlighet att leverera metadata om objekt som är helt skyddade av upphovsrätten. Dessa märks på följande sätt:
  • Rights reserved – free accessObjetet finns tillgängligt för alla i sin helhet men får inte åtaranvändas utan tillstånd.
  • Rights reserved – paid accessObjektet finns tillgänglit på nätet men måste betala för att se det i sin helhet (t ex via en engångskostnad eller prenumeration)
  • Rights reserved – restricted accessTillgången till objektet är begränsat på andra sätt än att användaren måste betala för det, t ex registrering eller annan kontrollerad tillgång.
Det är möjligt att sätta dessa licenser för ett helt dataset (t ex Riksantikvarieämbetets fotodatabas) vid leveransen till Europeana. För att undvika redundans är det dock önskevärt att denna märkning görs i källdatabasen och/eller i K-samsök.

 Läs mer om märkningen i The Europeana Licensing Framework (pdf)

Jag kommer i ett kommande inlägg gå närmare in på hur detta påverkar K-samsök samt ge förslag på möjliga vägval.

>> Johan Carlström – Systemförvaltare för K-samsök.

K-samsöksdata i Europeanas LOD-pilot

I o m Europeanas nya Data Exchange Agreement som fullt börjar gälla fr o m 1 juli kommer de ha en möjlighet att tillgängliggöra metadata som Linked Open Data (LOD). Metadata från K-samsök är en delmängd av den data som tillgängliggörs som LOD i en första pilot. Denna film visar pedagogiskt vad LOD är för något och vilken nytta det medför:


Linked Open Data from europeana on Vimeo.

I en första pilot tillgängliggör Europeana 2,4 miljoner texter bilder videos, ljud mm. Metadatan publiceras under den öppna metadatalicensen Creative Commons Zero (CC0) vilket gör metadatan (men inte media som ljud, bild osv) fri att använda vilket gör att Europeana kan ligga till grund för utveckling och tillväxt för digitala lösningar baserat på kulturarvsinformation.

K-samsök fungerar på många sätt som Europeana och tillgänggliggör bl a data i rdf-format med unika identiteter (URI:er) som vi tillgängliggör via ett API. Detta underlättar när de båda systemen ska ”prata” med varandra.

Vi kommer under året att se över informationsflödet institution-K-samsök-Europeana så att de digitala flödena harmoniserar med varandra för att underlätta leverans av metadata och återanvändning.

>> Johan Carlström – systemförvaltare för K-samsök