Publicatie:Vocabularies selecteren
Dit document geeft een overzicht van de belangrijkste vocabularies voor het semantisch web in de context van erfgoedcollecties (musea, archieven en bibliotheken). Het is geschreven als een aanvulling op tutorial 'Linked Data Stap voor Stap' van Paul Hermans (http://www.den.nl/pagina/334/den-lab), maar kan gelezen worden als zelfstandig document.
Titel | Vocabularies selecteren (Voorkeurstitel) |
Locatie | Linked Data Stap voor Stap |
Uitgever | |
Jaar van uitgave | 2011 |
Rechten | CC-BY-SA |
Persistent ID |
Inleiding
Dit document geeft een overzicht van de belangrijkste vocabularies voor het semantisch web in de context van erfgoedcollecties (musea, archieven en bibliotheken). Het is geschreven als een aanvulling op tutorial 'Linked Data Stap voor Stap' van Paul Hermans (http://www.den.nl/pagina/334/den-lab), maar kan gelezen worden als zelfstandig document.
Vocabularies?
Wat zijn vocabularies?
De term 'vocabularies' kan verschillende ladingen dekken. In erfgoedcontext wordt het woord vaak gebruikt als algemene aanduiding van gestructureerde woordenlijsten (thesauri, trefwoorden) of andere lijsten die gebruikt worden om erfgoed te beschrijven of te ontsluiten. Zo bevatten de Getty vocabularies een thesaurus (Standaard:AAT), een geografische namenlijst (Standaard:TGN) en een biografische database van kunstenaarsnamen. (Metadataregistry.org gebruikt de term 'schema' voor element sets, 'vocabulary' voor concept lists. ) W3C.org gebruikt hiervoor de benaming 'Value vocabularies'.
In de context van Linked Open Data definiëren we vocabularies als een van “gestructureerde verzameling van elementen die geschikt zijn om een digitaal object te beschrijven” Bijkomend kenmerk is dat deze sets van elementen ook machineleesbaar zijn, en dan bij voorkeur is de belangrijkste 'taal' van het semantisch web, Standaard:RDF.
Welke eisen stellen aan een goede vocabulary?
Het is moeilijk te bepalen wat een goede of slechte vocabulary is: dit hangt immers in hoge mate af van de context waarin deze wordt gebruikt. Wel kunnen er een zevental vuistregels worden gegeven:
- community: voldoende bekend en gebruikt
- adequaat elementen zijn inhoudelijk in overeenstemming met de beschreven objecten en/of met het schema vanwaar vertrokken wordt.
- specifiek: elementen zijn voldoende specifiek om de objecten in voldoende detail te beschrijven
- kwaliteit: de semantiek van de elementen is duidelijk ondubbelzinnig beschreven
- open de vocabulary is voldoende gedocumenteerd, on line beschikbaar en open
- RDF vertaling de vocabulary is vertaald naar Standaard:RDF formaat
- status: de vocabulary is bij voorkeur gepubliceerd als een stabiele versie. Draft versies kunnen mogelijk nog fundamenteel wijzigen, waardoor het gebruik nog niet erg toekomstgericht is.
Het is niet noodzakelijk een schema volledig te volgen: een van de voordelen van het semantisch web is dat je in principe vrij kan kiezen tussen properties (elementen) uit verschillende vocabularies om je gegevens zo adequaat mogelijk te structureren. In principe kan je dus een schema à la carte samenstellen. Anderzijds is het wel aanbevolen om je daarbij te beperken tot niet meer dan twee of drie vocabularies.
Veel vocabularies zijn overigens samengesteld uit properties van andere vocabularies. Het is daarom best practice om eerst grondig na te gaan of er al een bruikbaar (samengesteld) schema bestaat, waarop je verder kan werken.
Overigens kan je ook zelf properties definiëren wanneer dat nodig is.
Voorbeelden
Deze lijst bevat de meest relevante vocabularies voor de culturele erfgoedsector. Dit overzicht is zeker niet uitputtend. Wie meer wil weten verwijzen we naar de bronnen in het laatste hoofdstuk.
De lijst is onderverdeeld in drie delen:
- Entiteiten: bevat vocabularies waarbij de nadruk ligt op het beschrijven van reële en virtuele objecten en/belangrijke eigenschappen daarvan. Sommige van deze vocabularies gaan verder en beschrijven bijvoorbeeld ook de makers of de context waarin deze zijn ontstaan. Andere beschrijven slechts deelaspecten van een entiteit, zoals de technische kenmerken of de oorsprong.
- Agents: personen en organisaties waarover informatie kan worden verzameld (bv. in biografische databases) of die als handelende entiteit kunnen optreden (bv. als vervaardiger van een object).
- Plaats: vocabularies die betrekking hebben op de plaatsbepaling van een (geografisch) object of een gebeurtenis.
- Abstracte begrippen: vocabularies voor het beschrijven van begrippen, concepten, relaties e.d.
Heel wat vocabularies zijn nog in ontwikkeling: er is al een ontwerp beschikbaar of gepland, maar dit er is nog geen definitieve versie gepubliceerd. Vocabularies die in de eindfase zitten, zijn in deze lijst opgenomen met de vermelding 'draft' als status.
Entiteiten
Er zijn nog geen goede vocabularies bekend voor het beschrijven van museale objecten. De meest aanbevolen vocabulary is Standaard:Dublin Core. Specifiek voor bibliografische bronnen zijn bibo: the bibliographic ontology en bibtex. In de meeste gevallen wordt echter gebruik gemaakt van Dublin Core (DCelements of DCTerms).
BIBO
Standaard:BIBO is een vocabulary waarmee verschillende bibliografische types kunnen worden beschreven, zoals boeken, artikels, conference papers, presentaties, brieven etc. Er zijn heel wat vertalers beschikbaar die Standaard:BibTeX kunnen omzetten naar BIBO/RDF.
status: onbekend
url: http://bibliontology.com/
CIDOC-CRM
Het CIDOC Conceptual Reference Model (Standaard:CIDOC-CRM) is een ontologie voor het cultureel erfgoed. CIDOC-CRM geeft definities en een formele structuur om concepten en de semantische relaties daartussen vast te leggen. Het model is met name bedoeld voor het integreren en uitwisselen van heterogene informatiebronnen over cultureel erfgoed in de context van het semantisch web. CIDOC-CRM wordt zelden integraal toegepast en is eerder te beschouwen als een model waaraan meer specifieke modellen worden getoetst.
status: gepubliceerd
url: http://www.cidoc-crm.org
DC terms
DCterms is een meer uitgebreide versie van de 15 oorspronkelijke DC elementen. Deze uitbreiding is beter voorzien op de behoeften van het semantisch web, onder meer door het toevoegen van aanbevelingen voor het coderen van gegevens (Encoding Schemes) en het bepalen van Classes. DC terms is compatibel met DCMES.
status: gepubliceerd
url: http://dublincore.org/2010/10/11/dcterms.rdf
DCMES (Dublin Core 1.1)
Dublin Core Metadata Element Set is definieert een set van 15 elementen (properties) waarmee op een heel generieke manier objecten of publicaties kunnen worden beschreven. Veel andere vocabularies bevatten properties van DCMES. De sterkte van deze generalist is ook zijn zwakte: voor meer specifieke elementen moet een beroep worden gedaan op andere vocabularies. Een meer uitgewerkte vorm van DCMES is DCterms (zie hieronder).
status: gepubliceerd
url: http://purl.org/dc/elements/1.1/
Dublin Core Collection Description vocabularies
The DCMI Collection Description Application Profile Task Group ontwikkelde een Dublin Core collections application profile (Standaard:DC-CDAP) en een aantal vocabularies voor het beschrijven van collecties. Dit schema is gebaseerd op Standaard:RSLP.
status: gepubliceerd
url: http://dublincore.org/groups/collections/collection-terms
EVENT
The Event Ontology is ontwikkeld voor het beschrijven van gebeurtenissen: “iets” dat zich op een bepaald tijdstip en een bepaalde plaats heeft voorgedaan. EVENT is gebaseerd op de Standaard:Music Ontology en Standaard:FOAF.
status: gepubliceerd
url: http://motools.sourceforge.net/event/event.html
EXIF
Standaard:EXIF is een schema voor technische metadata van digitale beelden, die vaak ook in het bestand zijn ingebed ('embedded metadata').
status: gepubliceerd
url: http://www.w3.org/2003/12/exif
FRBR
Standaard:FRBR is een model voor het beschrijven van publicaties op basis van conceptuele relaties. Met behulp van FRBR kunnen bijvoorbeeld vertalingen, bewerkingen, liedjes, toneelopvoeringen en films die teruggaan op dezelfde tekst, eenvoudig aan elkaar gekoppeld worden. FRBR doet dit door vier niveaus te onderscheiden: 'work', 'expression', 'manifestation' en 'item'. De FRBR concepten van de drie hoogste niveaus zijn omgezet naar RDF.
status: onbekend
url: http://vocab.org/frbr/core.html
ISBD
RDF implementatie van de aloude Standaard:ISBD-beschrijvingsstandaard voor bibliotheken.
status: under review
url: http://metadataregistry.org/schema/show/id/25.html
Music Ontology
The Standaard:Music Ontology Specification biedt de belangrijkste concepten en eigenschappen voor het beschrijven van muziek (uitvoerders, opnames). MO is gebaseerd op FRBR.
status: onbekend
url: http://musicontology.com
Open Provenance Model
Het Standaard:Open Provenance Model is een generiek model om de afkomst (“provenance”) van iets uit te drukken. Het kan gaan om de afkomst van een fysiek object zoals een kunstwerk, maar ook om die van een virtueel object zoals een computerprogramma. Het model bestaat uit een eenvoudige Open Provenance Model Vocabulary voor een minimale beschrijving van provenancegegevens, en een meer expressieve Open Provenance Model OWL Specificatie.
status: gepubliceerd
url: http://openprovenance.org
RDA
Standaard:RDA (Resource Description and Access) is een op FRBR gebaseerde standaard voor de beschrijving van bibliografische bronnen. Op basis van deze standaard werd een uitgebreide reeks element sets geschreven, waarmee properties van bronnen zeer gedetailleerd kunnen worden beschreven. Ook analoog en digitaal audiovisueel materiaal kan met RDA worden beschreven. Daarnaast werden ook een groot aantal concept lists aangelegd (i.e. vocabularies in de generieke betekenis).
status: draft
url: http://metadataregistry.org/rdabrowse.htm
Personen en organisaties
Voor personen en instellingen is er o.a. BIO:a vocabulary for describing biographical information about people, both living and dead. Een meer generiek en meer bekend alternatief is FOAF – dat zich echter vooral op niet dode personen richt.
BIO
Standaard:BIO is een vocabulary voor het beschrijven van biografische gegevens over personen “both living and dead” (sic). Het schema is vooral geschikt voor het weergeven van cruciale gebeurtenissen in een mensenleven, en voor de relaties met andere agents.
status: gepubliceerd
url: http://vocab.org/bio
FOAF
Standaard:FOAF (Friend of a friend) is een machineleesbare ontologie voor het beschrijven van personen, hun activiteiten en hun relaties met andere personen en objecten.
status: gepubliceerd
url: http://www.foaf-project.org
url: http://xmlns.com/foaf/spec/
MADS
Standaard:MADS/RDF is ontworpen voor het gebruik bij gecontroleerde namenlijsten van personen of organisaties, maar ook geschikt voor gecontroleerde lijsten zoals thesauri of trefwoordensystemen. De MADS/RDF ontology is gemapped met Standaard:SKOS.
status: draft
url: http://www.loc.gov/standards/mads/rdf/v1.html
NDSL
NDSL Registry Agents Vocabulary: de vocabulary die het NSDL gebruikt voor het registreren van agents die vocabularies publiceren of onderhouden in het metadataregistry.
status: gepubliceerd
url: http://metadataregistry.org/uri/NSDLAgent
PIMO
Personal Information Model (PIMO) bevat classes en properties voor het beschrijven van personen en hun relatie met organisaties.
status: gepubliceerd (recommendation)
url: http://www.semanticdesktop.org/ontologies/2007/11/01/pimo/
RDA Group 2 Elements
Dit betreft de voorlopige registratie van de RDA Group 2 Element Vocabulary, beheerd door de DCMI/RDA Task Group.
status: draft
url: http://rdvocab.info/ElementsGr2
Plaats
W3C Basic Geo vocabulary
Dit compact schema is bestemd voor het representeren van geopositionering (breedtegraad, lengtegraad en hoogte) voor ruimtelijke objecten, volgens de Standaard:WGS84 standaard.
status: draft
url: http://www.w3.org/2003/01/geo
GN
De Standaard:Geonames is een uitgebreider schema voor geografische omschrijvingen.
status: gepubliceerd
url: http://www.geonames.org/ontology/documentation.html
Abstracte begrippen
CC Rel
Creative Commons Rights Expression Language (Standaard:CC Rel) maakt het beschrijven van auteursrechten als RDF mogelijk.
status: gepubliceerd
url: http://creativecommons.org/ns
SKOS
Het Simple Knowledge Organization System (Standaard:SKOS) is een data model voor het beschrijven en koppelen van kennissystemen (zoals thesauri) via het semantisch web.
status: gepubliceerd
url: http://www.w3.org/2004/02/skos/core
MARC code list of relators
Een lijst met codes die de relatie tussen een persoon of organisatie en een bibliografisch item aangeven. Deze lijst kan ook gebruikt worden voor het definiëren van rollen in andere dan bibliografische databanken.
status: gepubliceerd
url: http://id.loc.gov/vocabulary/relators
Bronnen
- LLD Vocabularies and datasets. Dit overzicht van W3C.org geeft ook value vocabularies.
http://www.w3.org/2005/Incubator/lld/wiki/Vocabulary_and_Dataset - LOV (Linked Open Vocabularies): (Handig door de visuele indeling naar toepassingsgebied)
http://labs.mondeca.com/dataset/lov - METADATAREGISTRY: http://metadataregistry.org
- Swoogle: http://swoogle.umbc.edu
- Sindice: http://sindice.com
- SWSE: http://swse.deri.org
- Schemapedia: http://schemapedia.com
- Schem-Cache: http://schemacache.com [nu offline]
- Umbel: http://www.umbel.org
- Vocab: http://vocab.org