Publicatie:Valideren van TIF-bestandsformaat
Deze handleiding legt je uit wat bestandsvalidatie van TIFF-bestanden is, wanneer je ze toepast, welke tools je ervoor kan gebruiken en hoe je ze in de praktijk kan uitvoeren.
Titel | Valideren van bestandsformaat van TIFF-bestanden (Voorkeurstitel) |
Locatie | |
Uitgever | |
Jaar van uitgave | 2020 |
Rechten | CC-BY-SA |
Persistent ID |
Auteur
Rony Vissers (meemoo,Vlaams instituut voor het archief)
e-mail: rony.vissers@meemoo.be
Wat is het valideren van bestandsformaten?
Het valideren van bestandsformaten is het proces waarbij je controleert of de inhoud en structuur van een digitaal bestand beantwoordt aan de eisen gesteld in de specificatie van het bestandsformaat.
In het geval van de controle van TIFF-bestanden, controleer je dus niet louter of de bestanden met de extensie .tif wel degelijk TIFF-bestanden zijn maar ook of ze beantwoorden aan de formele en semantische eisen die opgelegd zijn door de formaatspecificatie. De structuur van het bestand wordt geanalyseerd, en er wordt nagegaan of er geen fouten gemaakt zijn bij de implementatie van de specificatie. Zulke fouten kunnen immers betekenen dat het bestand mogelijk niet door alle software gelezen wordt.
Waarom valideer je bestandsformaten?
De validatie van bestandsformaten is zeer belangrijk in functie van langetermijnbewaring. Een belangrijk struikelblok bij de uitbouw van een digitale bewaarstrategie is dat we vaak geen goed beeld hebben van de te bewaren digitale bestanden. Toch is het voor een digitale archivaris of conservator het essentieel dat hij weet wat (technisch gezien) de precieze inhoud is van het archief omdat:
- hij verantwoordelijk is voor de authenticiteit van de inhoud;
- hij grote hoeveelheden digitale documenten moet bewaken en onderhouden, dus als hoe meer ze hetzelfde zijn hoe beter.
- indien hij migratie en emulatie wil als preserveringsstrategie wil inzetten, hij dit op grote hoeveelheden bestanden tegelijkertijd doen.
Het is dus belangrijk dat een digitale archivaris of conservator weet welke bestandsformaten deel uitmaken van zijn archief, en of de formaatspecificaties eenduidig geïnterpreteerd worden.
Wanneer valideer je bestandsformaten?
Voorafgaande aan de opstart van een digitaliseringsproject leg je kwaliteitseisen vast, o.a. over het te gebruiken bestandsformaat. De CEST-richtlijnen bevelen vaak het gebruik van uncompressed baseline TIFF 6.0 aan. Zodra de digitaliseringsresultaten opgeleverd worden, controleer je dan ook best of de ontvangen TIFF-bestanden beantwoorden aan die specificatie. Dat is belangrijk omdat je mogelijk die TIIF-bestanden nadien wil opnemen in je digitaal depot. Bij opname van bestanden in je digitaal is het belangrijk om weten welke de eigenschappen zijn van de bestanden die je wil opnemen. In bij de bestandsvalidatie fouten worden ontdekt, is het alsnog mogelijk om de bestanden te normaliseren voorafgaande aan de opname in het depot.
Tools voor bestandsvalidatie van TIF-bestanden
DPF Manager
DPF Manager is een modulaire open source tool voor de controle van de conformiteit van TIFF-bestanden. Hij is bijzonder gebruiksvriendelijk, kan makkelijk geïntegreerd worden in bestaande en nieuwe projecten en ingezet worden in een groot aantal verschillende scenario's. Via een eenvoudige interface toont DPF Manager of je TIFF-bestand voldoet aan de juiste preserveringsstandaard. Voldoet je bestand niet, dan geeft de gebruiksvriendelijke grafische gebruikersinterface ook aan waarom niet.
DPF Manager is ontwikkeld in het kader van het Europese project PREFORMA, waarin PACKED vzw (nu meemoo) één van de partners was. PACKED was verantwoordelijk voor o.a. het vastleggen van de functionele eisen van de tool. Uitgebreide informatie over DPF Manager vind je op de PREFORMA-website.
De code van DPF Manager is momenteel ondergebracht bij Open Preserve Foundation (OPF). Zij hebben plannen om op termijn de tool te integreren in JHOVE. Meer informatie hierover, vind je hier.
Een tutorial over het gebruik van DPF Manager is beschikbaar op YouTube.
Handleiding voor bestandsvalidatie met DPF Manager (basis)
1. Installeer DPF Manager op je computer. Je kan DPF Manager downloaden op de GitHub van meemoo. DPF Manager is beschikbaar voor Windows en macOS.
2. Open het programma DPF Manager op je computer.
3a. Sleep de map met te valideren TIFF-bestanden naar het venster Files/Folders.
3b. Of klik op knop ‘Select’ en selecteer de map met te valideren TIFF-bestanden.
3c. Vink de optie ‘Default’ aan, en klik op de knop ‘Full check.
4a. Onderaan opent zich het venster ‘Tasks’. Daar kan je de voortgang van de lopende validatie volgen. Wanneer de balk volledig groen is, is de validatie afgelopen. Je kan het venster ‘Tasks’ terug sluiten door onderaan links op ‘Tasks’ te klikken.
4b. Wanneer je onderaan links op ‘Console’ klikt, krijg je een overzicht van de taken die DPF Manager heeft uitgevoerd, en hoelang de uitvoering heeft geduurd.
Je kan het venster ‘Console’ terug sluiten door onderaan links op ‘Console’ te klikken.
5. Wanneer de validatie is afgelopen, kan je het rapport met de validatieresultaten raadplegen door in de bovenbalk op 'Reports' te klikken.
Je krijgt dan een algemeen overzicht dat aangeeft
- wanneer de validatie werd verricht;
- hoeveel TIFF-bestanden werden gevalideerd;
- welke map werd gevalideerd;
- hoeveel fouten er werden vastgesteld;
- hoeveel waarschuwingen er zijn;
- hoeveel TIFF-bestanden de validatie hebben doorstaan;
- de score.
Als je op het folder-icoontje klikt, ga je rechtstreeks naar de rapporten. Je kan de validatieresultaten per bestand raadplegen door op de lijn te klikken.
6. Je krijgt dan een overzicht te zien van de resultaten per bestand. Daarin zie je eerst bovenaan een samenvatting van het algemene rapport voor de hele folder, en vervolgens samenvattingen van de rapporten voor de individuele TIFF-bestanden. In het overzicht zie je per TIFF-bestand;
- met een kleurcode aangegeven of de validatie geslaagd is;
- welke bestanden gevalideerd zijn;
- hoeveel fouten er zijn vastgesteld;
- hoeveel waarschuwingen er zijn.
Als je op het HTML-icoontje klikt, krijg een bondige visuele samenvatting van de validatieresultaten voor de hele folder.
Alle rapporten, zowel voor de hele folder als voor de individuele TIFF-bestanden, kan je opvragen in vier bestandsformaten: in HTML, PDF, XML en JSON. Dat doe je door op de iconen ‘HTML’, ‘PDF’, ‘XML’ en/of ‘JSON’ te klikken. Voor het validatierapport van een individueel TIFF-bestand klik je op de iconen ‘HTML’, ‘PDF’, ‘XML’ en/of ‘JSON’ achter het bestand.
7. Het HTML-validatierapport voor de volledige map met TIFF-bestanden:
Een voorbeeld van een validatierapport voor een map TIFF-bestanden zonder fouten kan je als PDF-bestand downloaden door HIER te klikken.
8. Het HTML-validatierapport van een individueel TIFF-bestand:
De hoeveeldheid ingebedde metadata die door DPF Manager worden weergeven kan je uitbreiden door onder IDF tages 'Expert mode' aan te vinken. Als je het vakje 'Show infos' aanklikt rechts onder 'Conformance Checker', krijg je ook enkele aanbevelingen aangeboden om je TIFF-bestanden verder te verbeteren.
Een voorbeeld van een validatierapport voor een individueel TIFF-bestand zonder fouten kan je als PDF-bestand downloaden door HIER te klikken.
Voorbeeld van een bestandsvalidatie met foutmelding 1
Niet iedere bestandsvalidatie levert een rapport op zonder foutmeldingen.
Het volgende validatierapport geeft aan dat het gecontroleerde TIFF-bestand niet conform is aan de specificaties van baseline TIFF v6.0. De foutmelding is 'Alleen 7-bits ASCII-codes worden geaccepteerd'. Als je met je cursor over de foutmelding gaat, krijg je een toelichting te zien.
ASCII is een standaard 7-bits-tekencodering om Latijnse letters, cijfers, leestekens en enkele andere tekens en stuurcodes te representeren en aan ieder teken in die reeks een geheel getal te koppelen, waarmee dat teken kan worden aangeduid. Een overzicht van de 128 ASCII-codes die tot deze reeks behoren, vind je o.a. op Wikipedia. De foutmelding geeft aan dat er een probleem is met de tag 33432 Copyright. De inhoud van deze tag in het gecontroleerde bestand zie je hoger, in het lijstje met IFD tags: © Rony Vissers. Het copright-teken is geen 7-bits ASCII-code, en dat is de reden van de foutmelding.
Deze fout kan je makkelijk corrigeren. Als je het bestand opent met een beeldbewerkingsprogramma (bv. Adobe Photoshop of GIMP) en vervolgens de ingebedde metadata bekijkt, kan je makkelijk © Rony Vissers wijzigen in copyright: Rony Vissers. In Adobe Photoshop krijg je toegang tot de ingebedde metadata door in het menu onder 'File' op 'File info' te klikken. In GIMP krijg je toegang tot de ingebedde metadata door in het menu onder 'Afbeelding' eerst op 'Metadata' en vervolgens op 'Metadata bewerken' te klikken. Vergeet na de aanpassing het gewijzigde TIFF-bestand niet op te slaan.
Wanneer je het gewijzigde TIFF-bestand opnieuw controleert met DPF Manager, zal je merken dat de eerder gemelde fout verdwenen is en dat het bestand nu valide is.
Bij grote hoeveelheden TIFF-bestanden herstel je dergelijke fouten niet manueel en bestand-per-bestand, maar doe je dat in batch. Je kan dat doen met behulp van een beeldbewerkingsprogramma zoals Adobe Photoshop of GIMP. Een andere manier is om met behulp van ExifTool de ingebedde metadata uit de TIFF-bestanden te exporteren als een CVS-bestand, in het CSV-bestand de aanpassing te doen en vervolgens de aangepaste metadata met behulp van ExifTool opnieuw te importeren in de TIFF-bestanden.
Als de TIFF-bestanden het resultaat zijn van een digitaliseringsproject dat wordt uitgevoerd door een gespecialiseerd digitaliseringsbedrijf, ligt het natuurlijk eerder voor de hand om aan dat digitaliseringsbedrijf te vragen om hun fouten te herstellen in plaats van dat zelf te doen.
Voorbeeld van een bestandsvalidatie met foutmelding 2
Alhoewel het TIFF-bestandsformaat vooral gekend is als een bestandsformaat zonder compressie, biedt het TIFF-bestandformaat toch de mogelijkheid om compressie te gebruiken: zowel JPEG-, LZW- als ZIP-compressie. De CEST-richtlijnen schrijven het gebruik van Baseline TIFF v6.0 zonder compressie (uncompressed) voor. DPF Manager maakt het mogelijk om te detecteren of in een TIFF-bestand al dan compressie is gebruikt, en welke.
Hieronder zie je de validatierapport van eenzelfde beeld: links opgeslagen zonder compressie, rechts opgeslagen met JPG-compressie. Het TIFF-bestand waarin JPEG-compressie is gebruikt, geeft een foutmelding.
Natuurlijk is de aanduiding dat het tweede TIFF-bestand maar 53 MB groot is al een aanduiding dat er mogelijk iets niet klopt met het bestand. Maar dat weet je enkel met zekerheid als je reeds weet hoe groot het bestand zou moeten zijn of als je het kan vergelijken met valide TIFF-bestanden. Maar zelfs dan weet je nog niet wat de oorzaak van de onverwacht kleine bestandsgrootte. Dat weet je pas wanneer het DPF Manager-validatierapport je zwart-op-wit aantoont dat er JPEG-compresie is gebruikt in het TIFF-bestand.
De enige manier om deze fout te herstellen is de opname of scan opnieuw te maken en vervolgens op te slaan als Baseline TIFF v6.0 zonder compressie. Als het RAW-bestand is bewaard waarvan het TIFF-bestand is gemaakt, kan je ook terugkeren naar dat RAW-bestand en daarvan vervolgens een bestand in Baseline TIFF v6.0 zonder compressie te maken.
Voorbeeld van een bestandsvalidatie met foutmelding 3
Nog een validatierapport met foutmeldingen:
De gecontroleerde map bevat 45 TIFF-bestanden, en geen enkele van deze bestanden blijkt valide te zijn.
De validatierapporten van de individuele TIFF-bestanden tonen wat er mis is. De foutmeldingen zegt dat de Image File Directory (IFD) van het gecontroleerde TIFF-bestand zowel een X Resolution als een Y Resolution moet bevatten. Er ontbreekt dus bepaalde technische metadata.
Deze fout kan je herstellen door zelf de ontbrekende metadata in te bedden in het TIFF-bestand. Als het bestand het resultaat is van een digitaliseringsproject dat wordt uitgevoerd door een gespecialiseerd digitaliseringsbedrijf, vraag je bij voorkeur aan dat bedrijf om de fout te herstellen.
Handleiding voor bestandsvalidatie met DPF Manager (uitgebreid)
De default-modus van DPF Manager is dat je de TIFF-bestanden valideert tegen de Baseline TIFF 6.0 specificatie, maar dat is niet de enige specificatie waartegen DPF Manager kan valideren. Je kan ook een andere specificatie kiezen door een eigen configuratie aan te maken. Indien je een eigen configuratie wil aanmaken raadpleeg dan zeker de tutorial over het gebruik van DPF Manager die beschikbaar is op YouTube.
Het aanmaken van een eigen configuratie start je door op de knop 'Edit' te klikken.
Vervolgens kan je in een lijstje aanvinken welke specificatie je verkiest:
- TI/A Draft;
- TIFF/IT-P1;
- TIFF/IT-P2;
- TIFF/IT;
- Baseline TIFF 6.0;
- Extended TIFF 6.0;
- TIFF/EP.
Het is mogelijk om tegelijkertijd meerdere specificaties aan te vinken. Nadat je de gewenste specificatie(s) aangevinkt hebt, klik je op 'Continue' om te starten.
Als je op het tweede icoontje van links onder 'New Configuration' klikt, kan je ook zelf eigen validatieregels beginnen toevoegen. Je doet dat door op de knop 'Add Rule' te klikken.
Uit een keuzemenu kan je dan validatieregels kiezen die je kan toevoegen. Zo kan je bijvoorbeeld minimumdrempels instellen voor de breedte of hoogte van de TIFF-bestanden, een andere kleurruimte dan RGB kiezen, bepaalde vormen van compressie toestaan of de gewenste bitdiepte bepalen.
In het onderstaande voorbeeld hebben we als validatieregel toegevoegd dat de bitdiepte per kleurkanaal 8 bits moet zijn. Bestanden met een bitdiepte die lager of hoger is dan 8 bits per kleurkanaal zullen dan een waarschuwing krijgen.
Als je op het vierde icoontje van links klikt onder 'New Configuration', kom je op een scherm terecht dat je de mogelijkheid biedt om inbedde metadata te herstellen.
Als je op het vierde icoontje van links klikt onder 'New Configuration', kom je op een scherm terecht dat je de mogelijkheid biedt om je eigen configuratie op te slaan. In dit voorbeeld combineren we de validatie tegen de Baseline TIFF v6.0 specificatie met de eigen 'policy rule' dat de bestanden een bitdiepte moeten hebben die gelijk is aan 8 bits per kleurkanaal. Je kan de configuratie zelf een naam geven en een beknopte beschrijving toevoegen.
Wanneer je vervolgens terugkeert naar het startscherm zal je zien dat je niet langer enkel de default-configuratie kan aanvinken maar ook je eigen configuratie.