Publicatie:Verslag Expertmeeting Digitaliseren Tekst
Naar navigatie springen
Naar zoeken springen
Samenvatting
Referentie
Titel | Verslag Expertmeeting Digitaliseren Tekst (Voorkeurstitel) |
Locatie | [ ] |
Uitgever | [packed.be PACKED vzw]
|
Jaar van uitgave | 2012 |
Rechten | |
Persistent ID |
Trefwoorden
- Onderwerp: Verslag expertmeeting Digitalisering Tekst
- Datum: 2012-06-27
- Locatie: Koninklijke Bibliotheek Den Haag
- Aanwezig: Peter Boot (),Marian Hellema (IMPACT/KB), Edwin Klijn (), Rene van Stipriaan (Digitale Bibliotheek van de Nederlandse Letteren), Nicoline van der Sijs (Meertens Instituut) / David Copoolse (Vlaamse Erfgoedbibliotheek), Thomas Crombez (Universiteit Antwerpen), Robert Gillesse (DEN), Wietske van den Heuvel (DEN), Bert Lemmens (PACKED), Henk Vanstappen (PACKED)
Verschillende aspecten van digitalisering tekst:
- digitale beeld/machine-leesbare tekst
- inhoud (betekenis die in de tekst zit)/vorm (betekenis die in de vorm van het document zit)
Herkomst van digitale tekst
- belangrijk nieuw element: data over hoe de bron tot stand is gekomen/aanleiding voor de tekst
- hoe betrouwbaar is de OCR >> moet je als instelling zelf aangeven.
- elke digitale tekst is een nieuwe editie van een tekst, dus heeft nood aan editieverantwoording.
- nood aan procedures, gebruikte software
- elke digitalisering heeft nood aan beschrijving (metadata):
- welk analoog origineel (editie of exemplaar): bibliografische metadata
- wanneer, waarom, door wie, .. gescand
- gebruikte scansettings en -software
- gebruikte ocr software, betrouwbaarheid
- alle noodzakelijke metadata om digitale bestanden als een geheel te behouden:
- bestandsnaam
- bestandsnaam + mappenstructuur
- csv of xml-gebaseerde beschrijving
- betrouwbaarheid van ocr: hoe wordt dit bepaald? bestaan er afspraken over?
3 Kwaliteitsniveaus
- min: beeld zonder metadata
- midden: metadata aan de buitenkant
- max: volledige beschrijving structuur
5 digitaliseringsscenario's naargelang gebruik
- digitaal beeld: zie foto's digitaliseren
- digitaal beeld en (descriptieve, structurele) metadata
- digitaal beeld en tekst
- tekst
- digitaal beeld en tekst, waarbij beeld als preservation copy geldt: zie ook hier (hoogste) eisen voor foto's digitaliseren:
Er zijn dus drie types (2,3,4), die elk eigen eisen stellen. voor 1 en 5 kan doorverwezen worden.
6 digitaliseringsscenarios naargelang doel
- analoge teksten opzoekbaar maken: toevoegen van metadata (bibliothecarissenmethode)
- analoge teksten taggen op named entities (archivarissenmethode)
- analoge teksten ontsluiten door fulltext ocr, daarbij alle vormelijke eigenschappen bewaren (documentmanagement)
- analoge teksten ontsluiten door fulltext ocr, met aanduiding van inhoudelijke en grafische elementen (named entities, jaartallen, paginanummers, ...) (voer voor neerlandici)
- onvolkomenheden in ocr opvangen door ook beeld aan te bieden (quick & dirty aanpak)
- tekst inhoudelijk doorzoekbaar maken en de documentstructuur bewaren, met verlies van analoog origineel (Gutenbergproject-aanpak)
Workflow
- digitalisering als een proces met verschillende eindproducten
- afhankelijkheden in kaart brengen
- koppeling eindproducten aan processtappen en standaarden.
- Koppeling met budget dat je nodig hebt om te digitaliseren.
Standaarden
- versie nummers bij standaardformaten.
- XML
- is nogal algemeen. beter duiden
- publiceer welk XML formaat je gebruikt.
- TEI
- vooral inhoudelijke structuur coderen. Niet altijd relevant.
- maar ook om coordinaten in een tekst aan te brengen
- TEI heeft heel veel opties. Keuzes maken is lastig. >>> er ontstaan TEI profielen voor bepaalde eindproducten
- TEI vereist een technicus.
- TEI leercurve is stijl. DARIAH Vlaanderen project aanvraag om grafische interface voor TEI. Meertens heeft ook zo en editors gemaakt. DBNL maakt ook eigen editors.
- vereenvoudigde set van tags gebruiken.
- vgl TEI / ALTO
- TEI: inhoudelijke structuur van pagina >>> evolueert richting layout.
- ALTO: layout van pagina beschrijving
- PDF & ePUB
- afgeleide bestanden.
- kan je ePUB ook gebruiken als archiveringsbestand voor digital born publicaties.
- ePUB: voorlopig nog zeer mager.Eigenlijk een soort website. Gebruikt html en CSS > is een tijdelijkpublicatieformaat.
- layout concept is vrij mager. Maar wel open. Is op lange termijn makkelijk te openen.
- ePUB3 belooft meer tools en mogelijkheden (HTML5), maar nog in ontwikkeling.
- ODF
- zinvol als open variant voor born digital word bestanden.
- ePUB
- vooral een raadplegingsbestand dat op termijn gedigitaliseerde tekst makkelijk toegankelijk maakt via tablets/mobiele telefoons.
- Dus vooral groeiend belang als raadplegingsformaat.
- METS/MPEG DIDL
- wanneer complexe publicaties zijn deze standaarden een must
- afraden om dit in bestandsnamen op te nemen