Publicatie:Handleiding DROID voor SODA
Wat?
DROID is open source software die binnen het Stappenplan voor de Overdracht van Digitaal Archief (SODA) gebruikt kan worden als prospectietool binnen de systeem- en bestandsanalyse. Ook voor de identificatie van bestandsformaten wordt deze tool gebruikt. Deze pagina bevat specifieke instructies voor wie de tool binnen SODA wil gebruiken.
Waarom?
DROID wordt hier als voorbeeld uitgewerkt omdat het verschillende bewerkingen kan uitvoeren:
- Het maken van een directory list
- Het identificeren van bestandsformaten
- Het berekenen van checksums voor alle bestanden
De gegenereerde logs kunnen worden opgeslagen op een manier die systematische (handmatige) analyse toelaat in een databank of in een spreadsheet. Daarnaast is het mogelijk de berekende checksums automatisch te laten controleren door andere tools. SODA is niet softwareafhankelijk. Je kan dus ook één of meerdere andere tools gebruiken. Een alternatief is bijvoorbeeld Archivematica.
Wanneer?
DROID kan in dit stappenplan worden gebruikt voor de bestandsanalyse, in de laatste fase van de prospectie en het schonen.
Hoe?
Algemene instructies voor het gebruik van deze tool, alsook download- en installatie-instructies, vind je hier terug. Ook binnen DROID is er een uitgebreide help-functie beschikbaar. Met het oog op de toepassing van DROID binnen SODA, wordt hier specifieke toelichting gegeven.
Vooreerst is het belangrijk dat je de bestandsanalyse uitvoert met de juiste gebruiksinstellingen. Wanneer je DROID opent, kan je de voorkeursinstellingen aanpassen door achtereenvolgens te klikken op "Tools" en "Preferences".
In de tab "Profile defaults" kan je de volgende twee opties aanvinken:
- Analyse contents of archive files (zip, tar, gzip)
- Dit is reeds aangevinkt in de standaard instellingen en moet ingeschakeld blijven.
- Deze optie zorgt er immers voor dat DROID de inhoud van gecomprimeerde mappen zal onderzoeken. Zo kunnen alle bestanden geanalyseerd worden.
- Generate MD5 hash for each file
- Deze optie is standaard uitgeschakeld om het programma vlotter te laten werken, maar het moet hier worden ingeschakeld als je ook checksums wil berekenen. De gegenereerde "hashes" zijn immers de checksums die voor ieder bestand moeten worden berekend met als doel dubbels op te sporen en de integriteit te controleren.
In de tab "signature updates" kan je bepalen of en wanneer je het programma automatisch wil laten updaten.
- Zorg voor een regelmatige update.
- Tijdens een update werkt het programma zijn databank van gekende bestandsformaten bij.
- Hoe recenter de aangeleverde archiefbestanden werden aangemaakt, des te relevanter is een regelmatige update.
Via de knoppen "add" en "start" laat je het archief analyseren (zie algemene instructies). Voor enkele honderden bestanden duurt deze analyse slechts een aantal seconden. Wanneer men bijvoorbeeld miljoenen bestanden moet analyseren, zou dit tot enkele uren of dagen kunnen oplopen.
Na de analyse genereert DROID een tabel met de resultaten van de bestandsanalyse:
1. Een directory list
- In de kolom "Resource" worden de mappen en bestanden weergegeven in een hiërarchische lijst.
2. Een identificatie van de bestandsformaten
- In de kolom "lds" wordt weergegeven of DROID het bestand heeft kunnen identificeren met geen, één of meerdere bestandsformaten.
- In de kolommen "Format" en "Version" vind je de naam en de versie van het geïdentificeerde bestandsformaat.
- In de volgende kolom vind je het "MIME-type" van het geïdentificeerde bestandsformaat.
- Een MIME-type is een alternatieve naam die voor sommige bestandsformaten gebruikt wordt.
3. In de kolom "PUID" vind je de "Pronom Unique Identifier": een notatie waarmee elk bestandsformaat, samen met de versie ervan, uniek kan worden geïdentificeerd.
- In de kolom "Method" zie je volgens welke methode het bestand geïdentificeerd werd
- "Container" is een accurate identificatiemethode waarbij DROID bestanden in containers individueel opent en identificeert.
- "Signature" is een accurate identificatiemethode waarbij DROID de bestanden niet opent, maar waarbij de bestanden voldoen aan bepaalde patronen.
- "Extention" is een weinig accurate identificatiemethode op basis van de extensie, die wordt toegepast wanneer de voorgaande niet konden worden uitgevoerd.
4. Checksums
- In de kolom "Hash" worden de berekende MD5-checksums weergegeven. Deze worden in latere stadia van SODA gebruikt om dubbels op te sporen en de integriteit te controleren.
Nu alle gegevens berekend zijn, kan je je profiel in DROID opslaan, resultaten exporteren en een rapport genereren.
1. Profiel opslaan
- Je profiel kan je als een bestand opslaan via de knop "save". Dit bestand kan ook op andere computers geopend worden in de tool.
2. Resultaat exporteren
- Om de resultaten verder te kunnen onderzoeken, moeten ze geëxporteerd worden.
- Klik hiervoor op de knop "export", selecteer het juiste profiel en kies "one row per file". Sla de resultaten op als een CSV.
- Dit bestand bevat alle gegevens de je nodig hebt om verder te gaan met de procedure:
- Directory list (niet visueel)
- Informatie over de bestandsformaten
- Checksums
3. Rapport genereren
- Het rapport genereer je door te klikken op "report".
- Selecteer vervolgens het profiel waarvoor je een rapport wil genereren.
- Kies de optie "comprehensive breakdown" voor een volledig rapport.
- Dit rapport geeft een aantal statistieken weer die later nuttig kunnen zijn voor het nemen van preserveringsbeslissingen:
- Bestandsgrootte per bestandsformaat
- Bestandsgrootte per jaar van laatste aanpassing
- Etc.
- Dit rapport kan opgeslagen worden. Klik hiervoor op "export", onderaan het rapport. De opslag kan gebeuren in verschillende formaten.
- Door het op te slaan als tekstbestand kan je het openen met bijvoorbeeld Microsoft Excel, waardoor het automatisch in tabelvorm kan worden geraadpleegd.
Het resultaat dat je hebt gegenereerd, heb je opgeslagen als een CSV-bestand. Dit kan je openen in Microsoft Excel.
- Open de map waarin het CSV-bestand is opgeslagen.
- Klik met de rechter muisknop op het bestand en vervolgens op "openen met".
- Zoek Microsoft Excel in de lijst en dubbelklik.
Het is mogelijk dat Microsoft Excel deze gegevens niet automatisch in kolommen sorteert. Dit kan echter verholpen worden.
- Selecteer alle gegevens
- Ga vervolgens naar de tab "gegevens" en klik op de knop "Tekst naar kolommen".
- Er opent zich een nieuw venster. Je doorloopt zo meteen drie stappen.
- De gegevens worden in een CSV door tekens van elkaar gescheiden. In de eerste stap blijft dus de standaard optie "gescheiden" aangevinkt.
- Klik op "volgende"
- CSV staat voor "Comma Separated Values".
- Vink de komma aan
- Vink alle andere foto's ui
- CSV staat voor "Comma Separated Values".
- Klik op "volgende"
- In het laatste venster kan je voor elke kolom afzonderlijk een gegevenstype definiëren.
- In principe is de instelling "standaard" voor elke kolom toereikend.
- Klik op "voltooien"
Nu zijn de gegevens opgedeeld in rijen en kolommen. Voer een snelle controle uit om na te gaan of de omzetting naar kolommen goed is verlopen. Om deze controle en/of latere bewerkingen vlot te laten verlopen, kan je een aantal visuele instellingen veranderen:
- Selecteer alle gegevens met "ctrl+A" en ga naar de tab "Start".
- Klik hier op "Opmaken als tabel" en selecteer een stijl naar keuze.
- In een nieuw venster kan je het bereik van de tabel aangeven. Normaal is dit automatisch juist.
- Vink de optie "De tabel bevat koptekst" aan.
- Selecteer opnieuw alle gegevens en klik in de tab "Start" op "Opmaak" en selecteer "Kolombreedte AutoAanpassen".
- Blokkeer ten slotte de bovenste rij door in het tabblad "Beeld" te klikken op "Blokkeren" en vervolgens "Bovenste rij blokkeren" te selecteren.
Opgelet
Als je checksums wil berekenen, moet je dit zelf aangeven in de tool. Hiervoor moet je, via de knoppen "tools" en vervolgens "preferences", de optie "Generate MD5 hash for each file" inschakelen.
De kolom "extension" heeft de extensie in de bestandsnaam weer. Dit komt echter niet altijd overeen met het correcte bestandsformaat. Gebruik dus nooit deze kolom om bestanden te sorteren of te filteren met het oog op specifieke preserveringshandelingen.
Binnen DROID kan je filters toepassen op de lijst van geanalyseerde bestanden. Dit laat toe om enkel bestanden weer te geven die voldoen aan bepaalde criteria. Bij exporteren en rapporteren blijven deze filters van kracht. Deselecteer daarom deze filters als je de gegevens van het hele archief wil exporteren of rapporteren.