Publicatie:Digitalisering en bestandsformaten

Uit Meemoo Kennisbank
Naar navigatie springen Naar zoeken springen


Samenvatting

De digitale bestanden die archiefinstellingen bewaren kunnen van oorsprong digitaal zijn en dus geen analoog equivalent hebben, of ze kunnen het resultaat zijn van de digitalisering van analoge documenten. De keuze van het formaat van de digitale bestanden zal een belangrijke impact hebben op de langetermijnbewaring van zowel de bestanden zelf als van de informatie die erin vervat zit. Bestandsformaten komen en gaan. Bovendien hangt de keuze voor een bepaald bestandsformaat samen met een keuze voor wel of geen compressie, en die compressie kan gepaard gaan met informatieverlies.

Deze tekst legt op een laagdrempelige manier uit welke tegenwoordig de meest geschikte bestandsformaten zijn die een duurzame en veilige bewaring garanderen, in het bijzonder van gedigitaliseerde documenten, foto's, plannen en tekeningen. Eerst schetsen we wat precies een bestandsformaat is. Vervolgens gaan we dieper in op codering en compressie en maken we een onderscheid tussen open en gesloten bestandsformaten en codecs. Ook maken we een onderscheid tussen archiverings-, reproductie- en raadplegingsbestanden. We lijsten per type bestand de aanbevolen bestandsformaten op, en leggen uit hoe je ze kunt controleren. Omdat bestandsformaten alleen niet volstaan om de kwaliteit en duurzaamheid van digitaliseringsresultaten te verzekeren, gaan we ook in op een reeks andere criteria waarvoor je oog dient te hebben bij digitalisering.


Referentie
Titel Digitalisering en bestandsformaten (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2022
Rechten CC-BY-SA
Persistent ID


Auteurs

  • Nastasia Vanderperren (meemoo, Vlaams instituut voor het archief)
  • Rony Vissers (meemoo, Vlaams instituut voor het archief)

Deze tekst werd gepubliceerd in Inge Schoups (ed.) en Roeland Verhaert (ed.), Informatie beheren en archiveren: digitaliseren van analoge informatie, Politeia, 2022, 224 p., ISBN: 9782509041401 (print) en 9782509042309 (digitaal).

Wat is een bestandsformaat?

Afbeelding 1: links de originele foto, rechts dezelfde foto waar 1 bit omgedraaid werd (dus van 0 naar 1 of van 1 naar 0). Foto: Jim Salter, CC BY-SA 4.0, via Wikimedia Commons.

Het bestandsformaat is de manier waarop een digitaal bestand is gestructureerd. Het geeft aan hoe een computerprogramma de in het bestand opgeslagen data moet weergeven.

Het is een gestandaardiseerde wijze om de data die in het bestand zijn opgenomen te coderen. Het bepaalt hoe de bits, d.w.z. de kleinste eenheid van data in een computerbestand die enkel de waarde nul of één kan aannemen, worden gebruikt om de data te coderen. In het bestand worden de data opgeslagen in zeer lange reeksen van bits. Eén letterteken in een tekstdocument of één beeldpixel (d.i. een beeldpunt) in een foto worden gecodeerd in meerdere bits. Een kleurenscan van een document omvat al snel (vele) miljoenen bits. De bits worden gegroepeerd in bytes, reeksen bits die meestal acht bits omvatten. Een byte van 8 bits kan 256 mogelijke combinaties van bits hebben.

Afbeelding 2: links een afbeelding geopend met software bedoeld om afbeeldingen te openen, rechts diezelfde afbeelding geopend met een tekstverwerker. Originele foto: Nastasia Vanderperren, CC-BY 3.0.

Veel computerprogramma's gebruiken een eigen bestandsformaat, maar ze kunnen vaak ook andere soortgelijke bestandsformaten lezen en naar hun eigen formaat omzetten. Als je een bestand opent met een programma dat niet bedoeld is voor dat type bestandsformaat, zul je merken dat het bestand ofwel niet geopend kan worden, ofwel er plots heel anders uitziet dan verwacht.

Afbeelding 3: De hexadecimale waarde van het TIFF-bestand van een gedigitaliseerde tekening. Zoals ieder big-endian TIFF-bestand start het bestand met de hexadecimale getallen 4D4D002A. Oorspronkelijke tekening: Gustave Van de Woestyne, Genadige Heer, De Macht is in uwe hand, zegde Reinaert, CC0, via https://arthub.iiif.vlaamsekunstcollectie.be.

Een bestand bestaat meestal uit een header met ingebedde metadata over het bestand, de eigenlijke content en een code die het einde van het bestand aanduidt (de end-of-file marker). Het bestandsformaat bepaalt hoe deze onderdelen zijn opgebouwd. Bestandsformaten zijn te herkennen aan hun extensie. Verschillende bestandsformaten kunnen echter gebruik maken van dezelfde extensie. Daarom zijn bestandsformaten meestal ook te onderscheiden aan de hand van interne metadata. Die extensie en interne metadata geven het besturingssysteem een aanduiding met welke software het bestand geopend kan worden en hoe het gelezen moet worden. TIFF-bestanden zijn bijvoorbeeld te herkennen aan de bestandsextensie .tif of .tiff, terwijl PDF-bestanden te herkennen zijn aan de bestandsextensie .pdf. Als interne metadata heeft een TIFF-bestand bij het begin van het bestand de sequentie 49492A00[1] of 4D4D002A[2], terwijl een PDF-bestand aan het begin de sequentie 255044462D312E30 en op het einde de sequentie 2525454F46 bevat.[3]

Meestal wordt in een bestandsformaat één type data opgeslagen, maar bij multimediabestanden zoals bijvoorbeeld videobestanden, is de situatie ingewikkelder. Videobestanden kunnen zowel uit audio, bewegend beeld, ondertitelingen, afbeeldingen, navigatie-informatie (bv. hoofdstukken) en metadata bestaan. Die verschillende vormen van data worden gestructureerd en beschreven in een containerformaat. Een containerformaat dient als een verpakking voor verschillende bitstreams en beschrijft de verhouding tussen die bitstreams aan de hand van metadata.

Open bestandsformaten

Een bestandsformaat wordt vastgelegd in een bestandsformaatspecificatie waarin de opbouw van het bestand beschreven wordt. Een bestandsformaat waarvan de specificatie publiek beschikbaar is, noemen we een open formaat. Indien dat niet het geval is, is het een propriëtair of gesloten formaat.

Een voorbeeld van een open formaat voor beeldbestanden is TIFF v6.0 uit 1992. Die specificatie kan door iedereen gratis online geraadpleegd worden.[4] In de specificatie van het bestandsformaat staat welke soort data in het bestand opgeslagen kan worden en wordt er byte per byte overlopen hoe het bestandsformaat opgebouwd is. In de specificatie van TIFF v6.0 wordt daarenboven een onderscheid gemaakt tussen eigenschappen en functionaliteiten die onderdeel zijn van de basisspecificatie (baseline) en welke hierop uitbreidingen zijn (extensions). In het geval van TIFF v6.0 worden niet alle uitbreidingen op de basisspecificatie ondersteund door image viewers, applicaties die de bestanden kunnen lezen en weergeven. Door te kiezen voor de basisspecificatie ben je minder afhankelijk van specifieke software en is het bestand dus duurzamer.

Afbeelding 4: Inhoudstafel specificatie TIFF v6.0.

Het voordeel aan open formaten is dat iedereen die specificatie kan raadplegen. Op die manier kunnen verschillende computerprogramma’s ontwikkeld worden die het bestandsformaat kunnen openen en schrijven. Bij propriëtaire formaten behoudt degene die de specificatie heeft vastgelegd de exclusieve controle over de specificatie en kan hij dus het gebruik door derden verhinderen. Software-ontwikkelaars kunnen dan vaak enkel door middel van reverse engineering alsnog programma’s ontwikkelen die het propriëtaire formaat kunnen openen.[5] Door te kiezen voor een open bestandsformaat maak je je minder afhankelijk van een bepaalde software en leverancier.

Verder bestaan er ook standaardformaten. Dat zijn formaten die beantwoorden aan een open standaard. De standaard is dan goedgekeurd en wordt onderhouden door een non-profit organisatie. Verdere ontwikkeling van de standaard gebeurt op basis van een open besluitvormingsprocedure en er zijn geen juridische beperkingen (zoals patenten) op het gebruik ervan.

Compressie

Het coderen en decoderen van data (bv. het omzetten van kleurwaarden van beeldpixels naar bits, en van bits terug naar kleurwaarden van beeldpixels) gebeurt met behulp van een codec, die de vorm kan hebben van soft- of hardware. Dat coderen en decoderen van data gaat vaak samen met het comprimeren en decomprimeren van de data.

Afbeelding 5: Een visualisatie van het gebruik van de Huffmancodering om het tekstbericht A_DEAD_DAD_CEDED_A_BAD_BABE_A_BEADED_ABACA_BED te encoderen. In stappen 2 tot en met 6 worden de onderdelen telkens geordend volgens de toenemende frequentie waarin ze voorkomen en wordt er een boomstructuur uitgetekend. De finale boom in stap 6 wordt in stap 7 gebruikt om de code voor de verschillende tekens uit te schrijven. De meest voorkomende tekens (_, D en A) hebben de kortste code; de minst voorkomende tekens (C en B) de langste. In stap 8 wordt de zin uit stap 1 getoond als binaire code op basis van de Huffmancodering. Cmglee, CC BY-SA 4.0, via Wikimedia Commons.

Compressie wordt gebruikt om de benodigde opslagcapaciteit te verminderen en de bestanden sneller te kunnen uitwisselen, o.a. over het web. Het is een techniek waarbij met behulp van compressie-algoritmes de hoeveelheid data verminderd wordt. De reeks nullen en enen of bits waaruit een digitaal bestand bestaat kan immers zeer lang worden, zeker bij foto-, audio- en videobestanden. Een bestand van 1 megabyte (MB) bestaat uit 1 miljoen bytes. Dat zijn 8 miljoen bits (m.a.w. nullen en enen). Een voorbeeld van zo’n compressie-algoritme is de Huffmancodering, waarbij gekeken wordt naar welke tekens het meest voorkomen in een bestand. Via een frequentietabel van de verschillende tekens wordt er dan een codering voor het gecomprimeerde bestand opgesteld.[6]

Afbeelding 6: Lossless en lossy compressie-decompressie.

Er bestaan twee vormen van datacompressie: lossless compressie, waarbij het originele bestand exact gereconstrueerd kan worden, en lossy compressie, waarbij het gecomprimeerde bestand slechts een benadering moet zijn van het originele. Terwijl er bij lossless datacompressie geen informatie- en dus kwaliteitsverlies is, gaat lossy wel steeds gepaard gaat met een verlies aan data. Het verlies van de data is niet altijd onmiddellijk waarneembaar met het blote oog, maar er is wel degelijk sprake van informatieverlies. Wanneer het informatieverlies niet waarneembaar is, spreekt men vaak van visual losssless of near-lossless compressie.

Afbeelding 7: Weergave van digitaal generatieverlies dat optreedt door een JPEG-afbeelding 0, 100, 200, 500, 900 en 2000 keren 90 graden te draaien.

RAW-bestanden[7], dus ook DNG-bestanden, zijn ongecomprimeerde bestanden. Het bestandsformaat TIFF v6.0 wordt meestal gebruikt zonder compressie, maar kan ook gebruikt worden in combinatie met compressie - zowel lossless (LZW- en ZIP-compressie) als lossy (JPEG-compressie). Enkel wanneer TIFF v6.0 zonder compressie wordt gebruikt, beantwoordt het bestand aan de basisspecificatie. Compressie behoort immers tot de TIFF-extensies. Het gebruik van het bestandsformaat JPEG2000 zal daarentegen steeds compressie impliceren, maar ook hier kan gekozen worden tussen lossless en lossy compressie. Het bestandsformaat PNG zal steeds lossless compressie impliceren, terwijl het gebruik van het gewone JPEG-bestandsformaat steeds lossy compressie zal impliceren.[8]

Bij toekomstige omzettingen van een lossy gecomprimeerd bestand naar een ander bestandsformaat met lossy compressie, bv. om preserveringsredenen wanneer het oorspronkelijke bestandsformaat niet langer door soft- of hardware wordt ondersteund en daardoor in onbruik raakt, zet de lossy compressie zich verder. Er doet zich dan dus een bijkomend kwaliteitsverlies voor. Men spreekt in dergelijk geval van generatieverlies. Dat kan uiteindelijk resulteren in de onbruikbaarheid van het bestand en de erin vervatte data.

Moeder-, archiverings-, reproductie en raadplegingsbestanden

Het voordeel aan digitale bestanden is dat je er heel eenvoudig kopieën van kunt maken, indien gewenst zelfs zonder informatieverlies. Van één computerbestand kunnen dus verschillende kopieën bestaan. Bij digitalisering worden van de resultaten vaak verschillende kopieën gecreëerd om ze voor verschillende doeleinden te gebruiken.

Afbeelding 8: Verschillende types bestanden en hun onderlinge verhouding.

Het moederbestand is het digitale bestand dat het resultaat is van digitalisering. Het is dus de eerste digitale kopie van het analoge origineel. Van dit bestand worden verschillende kopieën gemaakt, die afhankelijk van het gebruik een ander bestandsformaat kunnen hebben.

Het archiveringsbestand is een digitale kopie van het oorspronkelijke document in de hoogst mogelijke kwaliteit. Het moet immers het origineel kunnen vervangen in geval van vernietiging of beschadiging, zoals bij substitutie. Archiveringsbestanden worden bijvoorbeeld gemaakt wanneer het oorspronkelijke analoge document te kwetsbaar is om het te kunnen raadplegen, of wanneer het verloren dreigt te gaan. Ze worden bij voorkeur bewaard in een beveiligde opslagomgeving. Het archiveringsbestand zal meestal het moederbestand zijn, maar kan ook afhankelijk van het preserveringsbeleid een ander bestandsformaat hebben. Het is bijvoorbeeld mogelijk dat het moederbestand bij de digitalisering m.b.v. een fotocamera een RAW-bestandsformaat heeft, dat vervolgens naar TIFF is omgezet voor het archiveringsbestand. Archiveringsbestanden zijn idealiter ongecomprimeerd of gebruiken lossless compressie. Hanteer altijd een open, gedocumenteerde en gestandaardiseerde (de)compressiemethode indien je compressie toepast. Vermijd dat er door de compressie (betekenisvolle) informatie en/of kwaliteit verloren gaat. Pas dus enkel lossy compressie toe wanneer het echt niet anders kan.

Het reproductiebestand is een digitale kopie waarvan de kwaliteit voldoende hoog is om het als moederbestand te gebruiken voor het maken van verschillende soorten raadplegingsbestanden. De kwaliteit is voldoende hoog om aan de hoogste gebruikersnoden te voldoen, maar niet voldoende hoog om het oorspronkelijke document te vervangen in geval van vernietiging of beschadiging. Reproductiebestanden worden bij voorkeur bewaard in een beveiligde opslagomgeving en zijn doorgaans enkel ter beschikking via het intranet van een bewaarinstelling. Voor reproductiebestanden kan lossless compressie worden gebruikt.

Een raadplegingsbestand is een digitale kopie die gebruikt wordt om een document digitaal ter beschikking te stellen. De kwaliteit van een raadplegingsbestand wordt bepaald door de aard van het gebruik, zoals bv. gebruik in hoogwaardig drukwerk, weergave op een beeldscherm of transmissie via het internet. De kwaliteit is vaak veel lager dan die van het archiverings- en/of reproductiebestand. Afhankelijk van het gebruik wordt er voor raadplegingsbestanden vaak lossless of lossy compressie gebruikt om het document makkelijk raadpleegbaar te maken. Voor het online ontsluiten van bestanden wordt meestal lossy compressie gebruikt om de benodigde bandbreedte beperkt te houden. Als bijvoorbeeld het archiveringsbestand van een gedigitaliseerde foto een TIFF-bestand is, zal het raadplegingsbestand vaak een JPEG- of JPEG2000-bestand zijn. Raadplegingsbestanden worden enkel bewaard en beheerd voor de termijn van het beoogde gebruik.

Keuze van een gepast bestandsformaat

Digitale duurzaamheid begint bij de creatie van het digitaal object, dus bij de aanmaak van het moederbestand en de verschillende afgeleide bestanden. De keuze voor het bestandsformaat en de codec speelt daarbij een belangrijke rol.

Belangrijke vuistregels bij de keuze van een gepast bestandsformaat en codec zijn:

  1. Kwaliteit: Voor het behoud van alle informatie van een analoog object is het belangrijk om als formaat voor het moederbestand een formaat te kiezen waarbij het mogelijk is om de data ongecomprimeerd op te slaan. Op die manier heeft het digitale bestand de best mogelijke kwaliteit. Als je beperkt bent in opslagmogelijkheden kan je kiezen voor een formaat met lossless datacompressie.
  2. Openheid: Je kiest best voor bestandsformaten (en codecs) zonder gepatenteerde technologie of licenties en waarvan de technische specificaties beschikbaar zijn. Wanneer een specificatie open is kunnen meerdere partijen programma’s ontwikkelen voor het bestandsformaat en is de kans groter dat in de toekomst het bestandsformaat nog gelezen kan worden. Door voor open formaten (en codecs) te kiezen verkleint het risico om afhankelijk te worden van één softwareleverancier.
  3. Gebruik: Niet enkel openheid is belangrijk, maar ook de mate waarin het bestandsformaat gebruikt wordt. Als er veel gebruikers van het bestandsformaat (en codec) zijn, zal er ook meer software ontwikkeld worden die het bestandsformaat kan lezen. De bestandsformaten dienen onafhankelijk van bepaalde besturingssystemen, netwerkprotocollen en applicaties (computerprogramma’s) te zijn.
  4. Stabiliteit: Bestandsformaten (en codecs) die niet te pas en te onpas grote veranderingen ondergaan en niet te complex zijn, genieten de voorkeur. Wanneer een bestand erg complex is of regelmatig verandert, is het moeilijk om backward compatibility te garanderen. Backward compatibility houdt in dat nieuwe versies van software oudere versies kunnen lezen.
  5. Functionaliteit: Bij digitalisering is het ook belangrijk dat de bestandsformaten identifiers en andere metadata kunnen inbedden in het bestand en dat de functionaliteit van het originele object behouden blijft.

Belang van de keuze van het bestandsformaat

Snelle technologische veranderingen kunnen als gevolg hebben dat bestandsformaten snel verouderen. Oude bestandsformaten kunnen door de opkomst van nieuwe technologieën en bestandsformaten op een bepaald moment niet langer ondersteund worden door hedendaagse computerprogramma’s en raken daardoor in onbruik. Dat kan problemen veroorzaken voor je archiefbeheer. Bij digitaliseringsprojecten is het bij de keuze van het bestandsformaat belangrijk om te kiezen voor een bestandsformaat dat de leesbaarheid voor lange termijn verzekert. Je kiest daarom best voor een bestandsformaat dat gestandaardiseerd, open en wijdverspreid is. Dat biedt de beste garantie is dat er gedurende lange tijd software zal blijven bestaan waarmee het bestand geopend kan worden. Ook is het belangrijk dat het bestandsformaat zonder informatieverlies tijdig kan worden vervangen door een hedendaags bestandsformaat als de leesbaarheid door veroudering van het formaat toch in het gedrang dreigt te komen.

Een gepaste keuze van het bestandsformaat is des te belangrijker bij digitaliseringsprojecten die gepaard gaan met substitutie. Daarbij worden de analoge documenten vervangen door digitale kopieën met de bedoeling om de originele documenten te vernietigen. De digitale kopieën moeten daarom dezelfde bewijskracht als de originele analoge documenten hebben.[9] Dit impliceert dat de digitale kopie een volledige en waarheidsgetrouwe weergave moet zijn van het originele analoge document. Informatieverlies moet worden uitgesloten of zoveel mogelijk beperkt. Omdat men niet langer kan teruggrijpen naar de originele analoge documenten, moet de leesbaarheid van de digitale kopieën op lange termijn verzekerd worden.

Aanbevolen bestandsformaten

Moederbestanden

Bij digitalisering is het belangrijk dat de moederbestanden de essentiële eigenschappen van de analoge archiefdocumenten zo goed mogelijk vastleggen, en dat zonder problemen nadien de archiefbestanden en reproductiebestanden kunnen worden gecreëerd. Wanneer de digitalisering gebeurt met scanners, zullen vaak ongecomprimeerde Baseline IBM[10] TIFF v6.0-bestanden worden gecreëerd.

Wanneer de digitalisering gebeurt met hoogwaardige fototoestellen (zij vervangen steeds vaker scanners), zullen de moederbestanden vaak bestanden in het DNG- of een propriëtair RAW-bestandsformaat zijn. RAW-bestanden zijn het digitale equivalent van analoge fotonegatieven. Zij kunnen verder bewerkt worden zonder dat het erin vervatte beeld verslechtert. Producenten van digitale camera’s hebben meestal hun eigen propriëtaire RAW-bestandsformaten. Sommige cameraproducenten bieden als extra optie naast hun eigen RAW-bestandsformaat ook een open RAW-bestandsformaat aan: DNG. Dat bestandsformaat kan zowel in propriëtaire beeldbewerkingssoftware (bv. Adobe Photoshop en Adobe Lightroom) als opensource beeldbewerkingssoftware (bv. GIMP) worden gebruikt. Zowel van de propriëtaire RAW-bestandsformaten als van het open DNG-formaat kunnen afgeleide bestanden in bv. TIFF of JPEG2000 worden gecreëerd.[11] De meeste propriëtaire RAW-bestanden kunnen ook geconverteerd worden naar het DNG-formaat. Moederbestanden in een RAW-bestandsformaat, ook het DNG-formaat, die het resultaat zijn van digitalisering worden best zo snel mogelijk omgezet in ongecomprimeerde baseline TIFF v6.0-bestanden. Enkel indien je voorziet dat de door de camera geproduceerde bestanden nog bewerkt moeten worden (bijvoorbeeld bij het digitaliseren van analoge negatieven), loont het de moeite om naast je (geconverteerde) TIFF-bestand een RAW-bestand te bewaren. Dit zal vanzelfsprekend een impact hebben op de benodigde opslagcapaciteit.

Archiveringsbestanden

Afbeelding 9: Enkele veelvoorkomende RAW-bestandsformaten.

Zowel bij de digitalisering van tekstdocumenten, foto’s als kaarten en tekeningen is het belangrijk om een open en goed gedocumenteerd bestandsformaat te gebruiken. Zo vermijd je afhankelijk te worden van specifieke software voor het transcoderen van het archiveringsbestand.

Bij de digitalisering van tekstdocumenten, foto’s en plannen en tekeningen is het gebruik van ongecomprimeerde Baseline IBM TIFF v6.0 als formaat voor de archiveringsbestanden aanbevolen. Indien je moederbestanden in het TIFF-bestandsformaat niet dienen te worden bewerkt, zullen zij je archiveringsbestanden worden. Omwille van zijn robuustheid en brede ondersteuning is Uncompressed Baseline IBM TIFF v6.0 het meest aanbevolen bestandsformaat. Als je de omvang van het archiveringsbestand wil beperken, gebruik dan lossless compressed JPEG2000. Dat bestandsformaat biedt technisch superieure mogelijkheden voor het gebruik van lossless compressie.

Verdere aanbevelingen:

  • Gebruik van lossy compressed JPEG2000, JPEG en PNG
    • bij tekstdocumenten: enkel als het digitale beeld wordt gebruikt voor het produceren van gestructureerde tekst (OCR) of voor het ter beschikking stellen van de inhoud van het tekstdocument;
    • bij foto’s, plannen en tekeningen: enkel als het origineel wordt bewaard en de digitale representatie louter gebruikt wordt voor raadpleging van de inhoud van de foto’s, plannen en tekeningen .
  • Vermijd het gebruik van PDF of PDF/A omdat het heel moeilijk is om van dit bestandsformaat verdere reproductie- of raadplegingsbestanden te maken.
  • Als tekstdocumenten, foto’s, en plannen en tekeningen uit meerdere onderdelen bestaan (bv. recto/verso tekstdocument of fotografische afdruk, bundel tekstdocumenten, fotoalbum, boek, tijdschrift, bijlagen):
    • Gebruik TIFF- en JPEG2000-bestanden in combinatie met een XML-bestand waarin je de structurele relaties tussen de verschillende bestanden vastlegt.
    • Vermijd het gebruik van Multipage-TIFF, omdat dit niet door alle software herkend of ondersteund wordt. Sommige programma's zullen enkel het eerste TIFF-bestand weergeven. Multipage-TIFF is een TIFF-uitbreiding en maakt geen deel uit van de basisspecificatie.
    • Vermijd het gebruik van PDF om alle onderdelen als één bestand te bewaren.

Reproductiebestanden

Ook voor de reproductiesbestanden is het bij de digitalisering van tekstdocumenten, foto’s, als kaarten en tekeningen belangrijk om een open en goed gedocumenteerd bestandsformaat te gebruiken. Zo vermijd je afhankelijk te worden van specifieke software om raadplegingsbestanden te creëren op basis van de reproductiebestanden.

Het aanbevolen bestandsformaat voor reproductiebestanden bij de digitalisering van tekstdocumenten, foto’s en plannen en tekeningen is JPEG2000. JPEG2000 maakt zowel lossless als lossy compressie mogelijk. Indien je lossy compressie gebruikt, beperk dan zoveel mogelijk het informatieverlies en hou de compressie visual lossless, zonder visueel zichtbaar informatie- of kwaliteitsverlies.

JPEG2000-bestanden wordt vaak gebruikt in IIIF-toepassingen.[12] De IIIF Image API Server biedt dan JPEG-raadplegingsbestanden aan die automatisch worden gegenereerd op basis van een JPEG2000-reproductiebestand. Meemoo hanteert deze werkwijze om reproducties van kunstwerken toegankelijk te maken.[13]

Raadplegingsbestanden

De keuze van het bestandsformaat van de raadplegingsbestanden maak je in functie van het beoogde gebruik. Aanbevolen bestandsformaten voor raadplegingsbestanden zijn:

  • JPEG2000:
    • om digitale beelden toegankelijk te maken op hoge resolutie;
    • het National Archive of Japan Digital Archive gebruikt het JPEG2000-formaat, naast het JPEG-formaat in verschillende resoluties, om allerhande gedigitaliseerde historische documenten (o.a. de Japanse Grondwet) online voor download aan te bieden op digital.archives.go.jp.[14]
  • JPEG en PNG:
    • om digitale beelden online toegankelijk te maken op schermresolutie;
    • meemoo gebruikt het JPEG-formaat om gedigitaliseerde historische kranten online voor download aan te bieden op de portaalwebsite hetarchief.be.[15]
    • meemoo gebruikt het JPEG-formaat ook om gedigitaliseerde historische kaarten en andere documenten online voor download aan te bieden op de website artinflanders.be.[16]
    • het Nationaal Archief van Nederland gebruikt het JPEG-formaat om gedigitaliseerde historische foto’s voor download aan te bieden op zijn website nationaalarchief.nl.[17]
  • PDF:
    • om tekstdocumenten, foto’s en plannen en tekeningen toegankelijk te maken die uit meerdere onderdelen bestaan (bv. recto/verso tekstdocument, bundel tekstdocumenten, boek, tijdschrift, bijlagen, etc.);
    • om digitale beelden en machineleesbare tekst geïntegreerd toegankelijk te maken;
    • om digitale beelden af te drukken;
    • het Nationaal Archief van Nederland gebruikt het PDF-formaat om gedigitaliseerde archiefstukken voor download aan te bieden op zijn website nationaalarchief.nl.[18]
  • HTML:
    • om machineleesbare tekst (verkregen na toepassing van OCR[19] op de beeldbestanden) toegankelijk te maken via een website;
  • ePUB:
    • om machineleesbare tekst (verkregen na toepassing van OCR op de beeldbestanden) toegankelijk te maken via tablets en andere mobiele apparaten.

Glossarium:Command_line_interface=Controle van het gebruikte bestandsformaat=

Afbeelding 10: De uploadinterface van DPF Manager.

Met behulp van bestandsidentificatie en -validatie kan je controleren of het bestandsformaat van de digitaliseringsresultaten overeenkomt met het vooropgestelde bestandsformaat (en de bijbehorende gewenste eigenschappen). Zeker voor de archiveringsbestanden is dit belangrijk met het oog op het verzekeren van hun duurzame bewaring.

Afbeelding 11: Een overzichtspagina met validatieresultaten in DPF Manager.

Hoe kan je achterhalen wat het bestandsformaat is van de digitaliseringsresultaten? Een eerste stap is vaak om naar de extensie van de bestanden te kijken. De extensie van een bestand is de tekenreeks die na het punt komt in de bestandsnaam. Een bestand met de bestandsnaam document.tif, heeft als extensie .tif[20] en geeft aan dat het bestand een beeldbestand is en dat het dus waarschijnlijk geopend kan worden met een beeldbewerkingsprogramma of een image viewer. Kom je een exotische extensie tegen waarvan je geen idee hebt hoe dit bestand te openen kan het verstandig zijn om het formaat te googlen of op te zoeken via bijvoorbeeld http://www.fileinfo.com/, het online register PRONOM van The National Archives van het Verenigd Koninkrijk of https://wikidp.org/.[21]

Afbeelding 12: Validatieresultaat voor één TIF-bestand in DPF Manager.

Maar met de extensie alleen heb je vaak nog niet voldoende informatie. Dat TIFF-bestand kan een beeldbestand zijn in het Tagged Image File Format, maar het kan evenzeer om een heel ander formaat gaan. Bovendien kan iemand het bestand handmatig hernoemd hebben en het een andere extensie gegeven hebben. De extensie geeft dus geen absolute zekerheid over het formaat van het bestand. Vaak is het ook belangrijk te weten om welke versie van een bestandsformaat het gaat, zodat je het bestand ook met de overeenkomstige softwareversie opent. Bijvoorbeeld: de aanbevolen versie van TIFF voor archiveringsbestanden is v6.0, en niet v5.0. Ook daarop geeft een extensie geen duidelijk antwoord.

Het juiste formaat en de gebruikte versie worden vaak aangegeven via onzichtbare meta-informatie in het bestand. Door deze informatie te lezen weet de software waarmee je het bestand wil openen, exact hoe hij het bestand moet benaderen. Er bestaat bestandsidentificatiesoftware die gespecialiseerd is in het lezen van deze informatie en je dus het formaat en de versie van al je bestanden kan vertellen.

Maar deze bestandsidentificatie geeft je geen zekerheid of de eigenschappen van het bestand overeenkomen met wat is voorgeschreven in de bestandsspecificatie. De extensie kan wel aangeven dat het bestand een TIFF-bestand is en de bestandsidentificatie kan bevestigen dat het een TIFF v6.0-bestand is. Maar zo weet je nog niet aan of het TIFF-bestand ook beantwoordt aan de baseline-specificatie. Eenmaal je weet welk formaat je bestand heeft, wil je ook weten of het bestand aan de formaatspecificatie beantwoordt. Een TIFF v6.0-bestand kan immers (lossless of lossy) gecomprimeerd zijn of een Multipage-TIFF-bestand zijn, en daardoor niet beantwoorden aan de baseline-specificatie. Bestandsidentificatie gaat daarom vaak hand in hand met bestandsvalidatie. Een bestand is pas valide als het beantwoordt aan de formele en semantische eisen opgelegd door de formaatspecificatie. Bij bestandsvalidatie wordt de structuur van het bestand bekeken en nagegaan of er geen fouten gemaakt zijn bij het implementeren van de specificatie. Zulke fouten kunnen immers betekenen dat het bestand niet door alle software gelezen wordt.

Enkele gratis opensourcetools voor bestandsidentificatie:

Beide tools kunnen gebruikt worden voor o.a. DNG, JPEG, JPEG2000, PDF, PDF/A PNG en TIFF.

Enkele gratis opensourcetools voor bestandsvalidatie:

  • DPF Manager[24]: voor TIFF;
  • jpylyzer[25]: voor JPEG2000;
  • veraPDF: voor PDF/A.

Een uitdaging bij het gebruik van bestandsidentificatie en -validatietools is dat ze vaak geen (gebruiksvriendelijke) grafische gebruikersinterface hebben maar werken met behulp van de command line interface. Uitzonderingen hierop zijn DPF Manager en veraPDF, die zeer laagdrempelig en gebruiksvriendelijk zien. Ook DROID is gebruiksvriendelijk en heeft een grafische gebruikersomgeving (user interface).

Zowel bij digitalisering in eigen huis als bij uitbesteding van digitalisering aan gespecialiseerde digitaliseringsfirma’s is het belangrijk om de digitaliseringsresultaten grondig te controleren (en dus bestandsidentificatie en -validatie te doen), vooraleer de oplevering ervan goed te keuren en de bestanden op te nemen in je digitaal archief.

Andere kwaliteitscriteria dan het bestandsformaat

Het gebruik van duurzame bestandsformaten, en de bijbehorende formaatidentificatie en -validatie, volstaat op zich spijtig genoeg niet om kwalitatieve en duurzame digitaliseringsresultaten te verzekeren. De resultaten moeten immers ook voldoen aan een reeks technische beeldcriteria. Voor de hand liggende criteria zijn de bitdiepte, de kleurruimte en de resolutie of pixeldichtheid, maar blijven daar niet tot beperkt.

De bitdiepte bepaalt het aantal bits (nullen en enen) die daar per beeldpunt of pixel voor gebruikt worden. Hoe meer bits gebruikt worden, hoe meer kleuren er mogelijk zijn en hoe nauwkeuriger een kleur gecodeerd kan worden. De aanbevolen bitdiepte voor archiveringsbestanden:

  • Gebruik een bitdiepte van 8 of 16 bit per pixel wanneer het origineel enkel grijswaarden bevat.
  • Gebruik een bitdiepte van 24 of 48 bit per pixel wanneer het origineel kleuren bevat (dus minimum 8 bit per primaire kleur).
  • Voor originelen in zwart-wit volstaat 1 bit per pixel. Hiermee worden originelen bedoeld die enkel zuiver wit en zwart bevatten, geen grijswaarden dus, bv. grafieken of tekstdocumenten.
  • Voor tekstdocumenten waarvan bij raadpleging de inhoud van de tekst en niet een betrouwbare kleurweergave belangrijk is en/of waarvan OCR-software gestructureerde tekst wordt gemaakt, volstaan 8 bits per pixel.

De kleurruimte is de methode die gebruikt wordt om de kleur van elk beeldpunt of pixel digitaal te coderen. De aanbevolen kleurruimte voor archiveringsbestanden:

  • Gebruik de sRGB-kleurruimte voor het coderen van kleur in digitale beelden van tekstdocumenten waarvan bij raadpleging de inhoud van de tekst en niet een betrouwbare kleurweergave belangrijk is en/of waarvan met behulp van OCR-software gestructureerde tekst wordt gemaakt.
  • Gebruik in alle andere gevallen de eciRGB- of AdobeRGB-kleurruimte. Wanneer de kleurnauwkeurigheid zeer belangrijk is, gebruik dan eciRGB.

Wanneer je een document onder de scanner legt of fotografeert, wordt het analoog beeld omgezet in beeldpunten of pixels. Elke pixel vertegenwoordigt de gemiddelde kleurwaarde voor een stukje van het origineel. Hoe meer pixels je hebt, hoe meer detail er dus van het analoge origineel bewaard blijft. Deze resolutie of pixeldichtheid wordt uitgedrukt in aantal beeldpunten per lengte-eenheid. Meestal wordt als eenheid inch genomen, waardoor we spreken van pixels per inch of ppi. De aanbevolen resolutie of pixeldichtheid voor archiveringsbestanden:

  • Voor het produceren van machine-leesbare tekst is de minimumeis dat de "punten" en "openingen" van de letters duidelijk zichtbaar zijn. In de praktijk betekent dit bijvoorbeeld dat het puntje van de "i" los staat van het streepje. Of dat de opening in de "e" duidelijk zichtbaar is.
  • Gebruik bij het digitaliseren van originele tekstdocumenten een resolutie van minimum 300 ppi, wanneer van het digitale beeld afgeleide raadplegingsbestanden worden gemaakt. 300 ppi is de minimale resolutie om een gedigitaliseerd tekstdocument op ware grootte af te drukken.
  • Gebruik bij het digitaliseren van foto’s, plannen en tekeningen minimaal de volgende resoluties:
    • 300 ppi voor originelen ≥ DIN A5 t/m DIN A2;
    • 600 ppi voor originelen < DIN A5;
    • 150 ppi voor originelen > DIN A2.
  • Wanneer je afgeleide raadplegingsbestanden groter moeten kunnen worden afgedrukt dan de originelen, hanteer dan bij digitalisering een hogere resolutie of pixeldichtheid dan hierboven beschreven.

De bitdiepte, de kleurruimte en de resolutie verzekeren op zich echter nog geen accurate digitale reproductie van het analoge origineel. De criteria daarvoor zijn o.a.

  • witbalans;
  • uitlichting;
  • helderheid;
  • ruis;
  • kleurnauwkeurigheid;
  • samplingefficiëntie;
  • scherpte;
  • afwezigheid van vervorming en artefacten.

Richtlijnen m.b.t. deze criteria vind je terug in:

  • Richtlijnen Preservation Imaging Metamorfoze (van Koninklijke Bibliotheek en Nationaal Archief);
  • Digitisation of photographic materials - Guidelines (Nationaal Archief);
  • Technical Guidelines for Digitizing Cultural Heritage Materials (FADGI - Federal Agencies Digital Guideline Initiative).

Een laagdrempelige en gratis tool om te controleren of digitaliseringsresultaten aan de Metamorfoze- of FADGI-kwaliteitsnormen voldoen is de online tool DELTAe. Bepaalde criteria kun je, al dan niet aanvullend, ook controleren met de gratis opensource beeldbewerkingssoftware GIMP.

Het is ook belangrijk dat in de digitale bestanden bepaalde metadata worden opgenomen over o.a.

  • het aantal pixels in de breedte en lengte;
  • de resolutie of pixeldichtheid;
  • de kleurruimte;
  • de bitdiepte;
  • de compressie;
  • de datum en -tijd van de digitalisering / opname;
  • het merk en type van het gebruikte digitaliseringsapparaat of fototoestel;
  • de datum en -tijd van de bewerking van het bestand;
  • de bewerkingssoftware.

Het TIFF-formaat beschikt over specifieke tags om deze metadata in het bestand zelf weg te schrijven.

Voetnoten

  1. Indien de bytevolgorde of endianess van het TIF-bestand little-endian is, zie https://www.nationalarchives.gov.uk/PRONOM/Format/proFormatSearch.aspx?status=detailReport&id=1099&strPageToDisplay=signatures.
  2. Indien bytevolgorde of endianess van het TIF-bestand big-endian is, zie https://www.nationalarchives.gov.uk/PRONOM/Format/proFormatSearch.aspx?status=detailReport&id=1099&strPageToDisplay=signatures.
  3. Voor meer informatie, zie https://www.nationalarchives.gov.uk/PRONOM/Format/proFormatSearch.aspx?status=detailReport&id=613&strPageToDisplay=signatures.
  4. Namelijk via deze link: https://www.itu.int/itudoc/itu-t/com16/tiff-fx/docs/tiff6.pdf.
  5. Reverse engineering is een proces waarbij het formaat zeer goed bestudeerd wordt en waarbij men via trial and error probeert te zoeken hoe het formaat opgebouwd is en geopend kan worden.
  6. Voor meer informatie, zie https://nl.wikipedia.org/wiki/Datacompressie.
  7. RAW-bestanden zijn bestanden die de ruwe, onbewerkte data bevatten zoals die wordt uitgelezen van de beeldsensor van de camera. In die bestanden is in tegenstelling tot bv. TIFF-bestanden nog geen kleurbereik gedefinieerd door er een bepaald kleurruimte (bv. eciRGB) aan toe kennen. Voorbeelden: ARW (Sony), CRW (Canon), NEF (Nikon), 3FR (Hasselblad) en PEF (Pentax).
  8. De bestandsomvang van het TIFF-bestand kan daarbij wel bijna 2,5 keer groter zijn het oorspronkelijke RAW-bestand. Het JPEG2000-bestand zal meestal kleiner zijn dan het RAW-bestand, zelfs bij gebruik van lossless compressie en dus zonder informatieverlies. De bestandsomvang van een JPEG-bestand, waarbij gebruik is gemaakt van lossy compressie en waarbij wel een vooraf bepaalde mate van informatieverlies optreedt, kan zonder dat het menselijk oog verschillen opmerkt makkelijk 3 keer kleiner zijn dan het oorspronkelijke RAW-bestand en 7 keer kleiner dan het TIFF-bestand. Een kopie als PNG-bestand, waarbij dus lossless compressie wordt gebruikt, kan iets groter zijn dan het oorspronkelijke RAW-bestand.
  9. Voor meer informatie, zie https://www.arch.be/index.php?l=nl&m=ambtenaar&r=faq-toezicht&p=wat-is-substitutie
  10. IBM staat hier voor een little-endian byte order. De byte-volgorde bepaalt hoe de bytes worden opgeslagen. Wordt eerst de meest significante byte geschreven, dan spreekt men van big-endian. Wordt eerst de minst significante byte geschreven, dan spreekt men van little-endian.
  11. Het afgeleide TIFF-bestand zal dan wel flink groter zijn dan het oorspronkelijke RAW-bestand, terwijl het afgeleide JPEG2000-bestand zelfs bij gebruik van lossless compressie iets kleiner kan zijn dan het oorspronkelijke RAW-bestand.
  12. IIIF, kort voor International Image Interoperability Framework, is een opkomende standaard voor de uitwisseling van beelden. Het is een raamwerk van vier API’s, uitgetekend door een consortium van universiteitsbibliotheken, erfgoedinstellingen, musea en softwarebedrijven. Dit raamwerk is een antwoord op de uitdaging om beelden uit te wisselen tussen verschillende systemen. Als je beeldenserver voldoet aan de IIIF-specificaties wordt de uitwisseling van beelden heel wat makkelijker.
  13. Bijvoorbeeld: https://images.meemoo.be/iiif/416sx7vq3v.jp2/full/max/0/default.jpg.
  14. Bijvoorbeeld: https://www.digital.archives.go.jp/DAS/pickup/view/detail/detailArchivesEn/0101000000/0000000003/00.
  15. Bijvoorbeeld: https://nieuwsvandegrooteoorlog.hetarchief.be/nl/media/ons-vlaanderen/T2HCWUXLMRUVTOeJbUeCoWUS. De Bibliothèque Nationale du Luxembourg biedt daartegen aan onderzoekers allerlei datasets met gedigitaliseerde kranten aan waarin TIFF-bestanden (en enkel JPEG-thumbnails) zijn opgenomen. Zie https://data.bnl.lu/data/historical-newspapers/.
  16. Bijvoorbeeld historische kaarten uit de collectie van het Felixarchief: https://artinflanders.be/en/artwork/wall-map-netherlands. Bijvoorbeeld compositieschetsen van de Polyfonisten uit de collectie van het Stadsarchief Brugge: https://artinflanders.be/nl/kunst/compositieschetsen-van-vlaamse-polyfonisten-5.
  17. Bijvoorbeeld: https://www.nationaalarchief.nl/onderzoeken/fotocollectie/ffc987d9-a7f5-c68e-e252-65d790ad5538?searchKey=f7a3f60537bd6b8cdaeaeed31b133358. Voor- en achterzijde van de foto’s worden als aparte JPEG-bestanden aangeboden.
  18. Bijvoorbeeld: https://www.nationaalarchief.nl/onderzoeken/archief/2.02.32/invnr/897ED.8/file?query=
  19. Optical Character Recognition, ofwel optische tekenherkenning, is een methode om geautomatiseerd tekens in een afbeelding te herkennen. Dit heeft als grootste voordelen dat de tekst voor machines hanteerbaar wordt (doorzoekbaar, indexeerbaar) en dat de grootte van het bestand ernstig gereduceerd kan worden.
  20. De extensie kan ook .tiff zijn. Beide extensies komen voor.
  21. https://wikidp.org/ is een schil bovenop Wikidata en wordt gehost door de Open Preservation Foundation.
  22. Voor download en info, zie https://www.nationalarchives.gov.uk/information-management/manage-information/preserving-digital-records/droid/.
  23. Voor download en info, zie https://www.itforarchivists.com/siegfried/.
  24. Zie download en info, zie http://dpfmanager.org/.
  25. Zie download en info, zie https://jpylyzer.openpreservation.org/.