Publicatie:Opname van digitale archieven met Archivematica
Titel | Opname van digitale archieven met Archivematica (Voorkeurstitel) |
Locatie | |
Uitgever | |
Jaar van uitgave | 2016 |
Rechten | CC-BY-SA |
Persistent ID |
Auteur(s)
Lindsay Simons, projectmedewerker bij het Archief en Museum voor het Vlaams leven te Brussel (AMVB)
Status
Het project SODA², dat verschillende manieren heeft onderzocht om digitaal archief op een duurzame manier op te slaan en te bewaren, werd in de zomer van 2016 afgerond. Projectmedewerker Lindsay Simons breidde enerzijds het reeds bestaande Stappenplan voor de Overdracht van Digitaal Archief (SODA) uit met de nadruk op de opslag van digitaal archief. Dit stappenplan biedt verschillende werkwijzen en tools aan, zodat elke archiefinstelling een methode 'op maat' kan samenstellen. Daarnaast werd specifiek voor het AMVB een methode uitgeschreven. Deze specifieke werkwijze wordt hieronder toegelicht.
Probleemstelling
Digitaal archief dient op een duurzame manier bewaard te worden, zodat het zolang mogelijk blijft bestaan. In tegenstelling tot het papieren archief, dient men in deze situatie rekening te houden met een heleboel technische aspecten: de bits en bytes kunnen corrupt worden, mappen kunnen gecomprimeerd zijn, bestanden kunnen versleuteld zijn, etc. Vooraleer de digitale bestanden in het digitaal depot terecht komen, dienen ze dus eerst een aantal bewerkingen te ondergaan om hun levensduur te verlengen en de doorzoekbaarheid en leesbaarheid te vergroten.
Het AMVB heeft met het project SODA een algemene werkwijze uitgewerkt om dit tot een succesvol einde te brengen. SODA gaat uit van kleine archiefinstellingen die weinig tot geen middelen ter beschikking hebben. Er worden dus zo veel mogelijk gratis tools en open source software aangereikt, waardoor de archiefinstellingen zelf kunnen kiezen welke tools ze gebruiken. In dit kader werd voor het AMVB een specifiek traject vastgelegd, met daarin het gebruik van onder meer Archivematica. Deze gratis tool doet een groot deel van de bovengenoemde vermeldingen volledig automatisch.
Deze case-study laat zien welke stappen worden ondernomen en door middel van welke tools digitaal archief in het AMVB wordt 'klaargestoomd' voor de opslag in het digitaal depot. Omdat al deze stappen in Linuxomgeving gebeuren, zal kort toelichting gegeven worden over de basiscommando's en de terminal in Ubuntu vooraleer over te gaan tot de uiteenzetting van de werkwijze. Ook wordt er aandacht besteed aan welke infrastructuur minimum nodig is om deze werkwijze tot een goed einde te brengen.
Infrastructuur
Om het overgedragen archief te kunnen ontvangen, controleren, bewerken en op te slaan op een duurzame manier, moet de archiefinstelling over een minimum aan hardware beschikken: een (draagbaar) medium, twee computers en twee NASsen.
(Draagbaar) medium
Als archiefinstelling dien je over een medium te beschikken die kan dienen als draagbaar werkstation. Hierop staan bijvoorbeeld enkele tools die je zal gebruiken tijdens de prospectie. Maar ook voor de fysieke overdracht van het archief heb je een draagbaar medium nodig, indien de overdracht niet gebeurt via het netwerk. Het archief wordt overgezet op dit medium en zal van daaruit gecontroleerd worden op virussen en andere malware.
Computers
Om het archief te controleren op virussen heb je nood aan een stand alone computer die niet in verbinding staat met het netwerk: de quarantainecomputer. Wanneer het archief vrij is van malware, wordt het overgezet op een tweede computer: het werkstation. Deze computer staat wel in verbinding met het netwerk, aangezien je na het schonen en het creëren van een containerbestand het archief zal verplaatsen naar het digitaal depot.
Omwille van verschillende redenen hebben beide computers Ubuntu(Linux) als besturingssysteem:
- Minder gevaar op verspreiden van virussen. De meeste virussen zijn immers bestemd voor Windows. In sommige gevallen is het in een Windowsomgeving dan ook moeilijk om deze op een correcte manier volledig te verwijderen.
- Het gebruik van specifieke software: de archiveringstool Archivematica werkt alleen op Ubuntu.
Je kan Ubuntu installeren als virtual machine op computers die Windows als besturingssysteem hebben. Op die manier kan je bij het opstarten van je computer zelf kiezen in welke omgeving je wil werken: Linux of Windows. De installatie van Ubuntu verloopt als volgt:
- Surf naar http://www.ubuntu.com/download
- Klik op "Download Ubuntu Desktop".
- Er opent zich een nieuw venster. Klik nogmaals op "Download".
- Klik op "uitvoeren" of "opslaan". Kies in het laatste geval de plaats waar je het programma wil opslaan.
- Plaats het ISO-bestand op een DVD of USB-stick.
- Start de computer waarop je Ubuntu wil installeren, met de DVD/USB-stick al aangekoppeld.
- Er verschijnt een scherm met daarin de keuze: "Try Ubuntu" of "Install Ubuntu". Wanneer je zeker bent dat je Ubuntu wil installeren kies je voor de laatste optie.
- Volg de verdere installatieinstructies op het scherm of op http://www.ubuntu.com/download/desktop/install-ubuntu-desktop. Vaak zijn de standaardinstellingen voldoende voor het doel dat hier wordt beschreven.
NAS
Om het archief op een duurzame manier op te slaan, wordt hier gekozen voor het gebruik van een Glossarium:NAS (Network Attached Server). In dit geval kies je best voor een uitbreidbare NAS, zodat je de groei van digitaal archief op een goede manier kan opvangen. Deze NAS bevindt zich in de archiefinstelling.
Een tweede NAS is nodig voor de back-up van het digitaal archief. Deze staat liefst op een andere locatie, zodat in geval van calamiteiten steeds een versie van het archief beschikbaar is. Bij het AMVB werd gekozen voor colocatie: de NAS waarop de back-up staat, werd door onze IT-provider in een datacenter geplaatst.
Kosten
De kosten hangen af van wat je reeds ter beschikking hebt. Zo is het waarschijnlijk dat je één of meerdere computers hebt die je kan gebruiken als quarantainecomputer of werkstation. Wanneer je deze nieuw moet aanschaffen, zal je - afhankelijk van de eventuele voordelen die je IT-provider verleent - ongeveer 1.000 euro per computer moeten rekenen.
Wanneer je een NAS dient aan te kopen, kan je best opteren voor een uitbreidbaar model. Op die manier kan je de groei van digitaal archief beter opvangen. De NAS (Synology RS812+) die in het AMVB staat, kostte om en bij de 1.700 euro. Hierin zitten al vier harde schijven van elk 2TB. De NAS is uitbreidbaar tot 8TB in totaal.
De tweede NAS (Synology RS2416RP+) - die het AMVB heeft aangekocht eind 2015 - kostte ca. 3.200 euro. In deze NAS zitten reeds vier harde schijven van elk 4TB en is uitbreidbaar tot twaalf harde schijven van 4TB. Elke harde schijf kost ongeveer 700 euro. Deze NAS wordt gebruikt als back-up. De kosten voor opslag in een datacenter bedragen op dit moment 138 euro BTWe per maand.
Tot slot moet ook rekening gehouden worden met de kosten van de gebruikte software. Aangezien SODA uitgaat van een stappenplan voor archief- en erfgoedinstellingen die weinig middelen ter beschikking hebben, zal het merendeel van de software gratis en open source zijn. Enkel de antivirussoftware is betalend.
Linux
Vooraleer we de stappen van SODA in praktijk gaan bekijken, bestuderen we enkele functionaliteiten van Linux in detail. Hier wordt voornamelijk gefocust op commando’s en andere handelingen die tijdens het doorlopen van SODA aan bod zullen komen.
Terminal
In de Terminal zie je als eerste de prompt verschijnen in de vorm user@host directory. Op het werkstation zal dit normaal eruit zien als volgt: vrijwilliger02@AMVB:~$ vrijwilliger02 is de gebruiker op het werkstation, AMVB is de eigenaar van de desktop. In dit voorbeeld is er geen specifieke directory geselecteerd.
Wanneer je meer informatie wenst over een bepaald commando dat je wil gebruiken in de Terminal, bestaan er – naast de vele fora op internet – de info- en man-pagina’s van Linux zelf. Deze roep je op met de simpele commando’s “info [command]” en “man [command]”, bijvoorbeeld:
- info ls
- man ls
De man-pagina geeft onder meer een opsomming van alle opties die je bij een commando kan toevoegen. Wanneer je een of meerdere opties gebruikt bij een commando, ga je die iets specifiek laten doen. Een optie volgt altijd achter een ‘-‘, bijvoorbeeld: ls -a -R /home/vrijwilliger02/Afbeeldingen
Dit commando zal een lijst geven van alle bestanden die zich in de map “Afbeeldingen” bevinden. Door de optie “-R” zal Linux recursief zoeken, d.w.z. tot op het diepste niveau.
Het gedeelte waarin de map of het bestand wordt gespecifieerd, in vorig voorbeeld “/home/vrijwilliger02/Afbeeldingen/”, noemt men het argument.
Shortcut keys in terminal
- ctrl+a --> Verplaats de cursor naar het begin van de command line.
- ctrl+c --> Beëindig het commando en ga terug naar de prompt.
- ctrl+d --> Sluit de terminal.
- ctrl+e --> Verplaats de cursor naar het einde van de command line.
- ctrl+t --> Open een nieuw terminalvenster.
- ArrowUp en ArrowDown --> Zoek in je geschiedenis naar een commando en gebruik het eventueel opnieuw door op enter te duwen.
- Tab --> Laat de map- of bestandsnaam automatisch aanvullen door de terminal; als er meer mogelijkheden zijn, gebruik je nogmaals tab: zo krijg je een overzicht van alle mogelijkheden.
Commando's
cd (Change Directory)
Zoals de naam laat blijken, zal dit commando de locatie in de terminal (directory) aanpassen. Na de “cd” typ je het juiste pad naar de map. Bijvoorbeeld: je wil naar de directory in de terminal veranderen naar “Downloads”, dan typ je: cd /home/vrijwilliger02/Downloads De prompt zal nu veranderen naar vrijwilliger02@AMVB:~/Downloads$
ls
Als je dit commando intypt, krijg je een overzicht van alle bestanden, mappen, etc. die in de huidige directory aanwezig zijn. Per soort worden zij weergegeven in een andere kleur (bestanden in wit, mappen in blauw, gecomprimeerde mappen/bestanden in rood, etc.). Als je volgend commando intypt ls /home/vrijwilliger02/Downloads dan krijg je een overzicht van wat er zich in de map “Downloads” bevindt. Je kan ook eerst de directory aanpassen naar “Downloads”. Op die manier hoef je de hele directory niet te typen in het commando. ls kan je combineren met een aantal opties, zoals onder andere:
- -a: toon ook bestanden die beginnen met een ‘.’ (dit zijn onzichtbare bestanden).
- -l: uitgebreide bestandsinformatie tonen
- -R: submappen recursief tonen
- -S: op bestandsgrootte sorteren
- -t: op de tijd van laatste wijziging sorteren
- -x: de items per regel tonen in plaats van in kolommen
- -X: alfabetisch sorteren op bestandsextensie
- -1: één item per regel tonen
file
Dit commando zal je meer informatie geven over een bepaald bestand, zoals bestandsformaat, afmetingen en kleur (bij afbeeldingen), etc. Als je bijvoorbeeld meer informatie wil over een bestand in de map Afbeeldingen, genaamd “AM_error.png”, typ je het volgende in de Terminal: file /home/vrijwilliger02/Afbeeldingen/AM_error.png
sudo
Je zal merken dat sommige commando’s voorafgegaan worden door ‘sudo’. Deze term zorgt ervoor dat het commando uitgevoerd wordt als root. Sommige commando’s kunnen immers niet door gewone gebruikers uitgevoerd worden. Met de term ‘sudo’ kan je dit afdwingen. Let wel op: met sudo kan je zo goed als alle commando’s uitvoeren, ook die commando’s die serieuze veranderingen in je systeem teweeg brengen. Daarom zal de Terminal aan het begin van je sessie het wachtwoord vragen. Als de Terminal een commando weigert uit te voeren wegens rechten, probeer dan steeds eerst sudo te gebruiken alvorens op zoek te gaan naar een andere oplossing.
chmod
Het chmod-commando verandert de restricties op de rechten die een gebruiker, groep of eigenaar heeft op een map of bestand. Vaak kan dit niet in de grafische interface aangepast worden, waardoor een commando in de Terminal de enige optie is. Een voorbeeld is: sudo chmod u+rwx, go-rwx /home/vrijwilliger02/Afbeeldingen
De rechten voor de map “Afbeeldingen” zijn nu aangepast: de eigenaar heeft lees-, schrijf- en uitvoerrechten (respectievelijk r, w en x); de groep en anderen (respectievelijk g en o) hebben geen rechten. Zoals je kan opmerken wordt de ‘+’ gebruikt om rechten toe te kennen en de ‘-‘ om restricties op te leggen. Om de nieuwe bepalingen toe te passen op alle onderliggende mappen en bestanden gebruik je de optie ‘-R’. Het commando ziet er dan zo uit: sudo chmod -R u+rwx, go-rwx /home/vrijwilliger02/Afbeeldingen
Als je wil weten wie welke rechten heeft op een bepaalde map of bestand, gebruik je het commando ls -l. Aan de hand van een reeks cijfers en streepjes kan je afleiden welke restricties er zijn, bijvoorbeeld: -rw-rw-r--
Op de eerste plaats komt er steeds een verwijzing naar het type: bestand, map (d), link (l), etc. Dan volgen de rechten van de eigenaar (in dit geval lezen en schrijven), de rechten van de groep (lezen en schrijven) en de rechten van de anderen (alleen lezen). Wanneer er een liggend streepje staat, betekent dit dat dat specifieke recht niet is toegekend. De reeks heeft altijd de volgorde eigenaar (rwx), groep (rwx) en anderen (rwx). Om te weten wie de eigenaar is van een bestand/map en welke groep hieraan wordt toegekend, klik je met de rechtermuisknop op de desbetreffende map/bestand en kijk je bij de eigenschappen.
Laten we nu de rechten aanpassen door sudo chmod o+w, dan krijg je volgende reeks: -rw-rw-rw-
chown en chgrp
Naar aanleiding van bovenstaande is het ook belangrijk om te weten hoe je de eigenaar van een map of bestand verandert. Ook dit gebeurt aan de hand van een commando in de Terminal: sudo chown vrijwilliger02 /home/vrijwilliger02/Afbeeldingen Wanneer vrijwilliger02 nog geen eigenaar zou zijn geweest van de map “Afbeeldingen”, is hij dat wel na dit commando. Het veranderen van toegekende groepen gebeurt op eenzelfde manier, maar dan met het commando chgrp.
top
Dit commando is vergelijkbaar met ctrl+alt+del van Windows. Als je “top” intypt in de Terminal, worden alle processen weergegeven. Deze lijst wordt om de vijf seconden vernieuwd, zodat je steeds een accuraat beeld krijgt.
Opgelet!
De terminal is hoofdlettergevoelig!
Wanneer je bestandsnaam of mapnaam spaties bevat, zal je gebruik moeten maken van ‘\’. Bijvoorbeeld: /home/vrijwilliger02/Afbeeldingen/foto\ van\ AMVB/ Na de ‘\’ zal je dus nog steeds je spatie moeten typen. Ook bij enkele vreemde tekens moet je de backslash gebruiken. Wanneer je twijfelt kan je steeds proberen je bestands- of mapnaam automatisch laten aanvullen door gebruik te maken van de tab-toets (zie hierboven bij shortcut keys).
Wanneer je een commando wil uitvoeren op een bepaald bestand, dien je steeds de bestandsextensie toe te voegen aan de bestandsnaam. Alleen zo kan de Terminal meer informatie geven.
Het is niet aangewezen om zelf de eigenaar en/of groep van een map of bestand te wijzigen. Het veranderen van de eigenaar en/of groep kan ervoor zorgen dat bepaalde programma’s niet meer (goed) werken.
Meer lezen?
GARRELS, M., Introduction to Linux. A Hands on Guide.
Werkwijze
1. Virusscan (quarantaine)
Tijdens deze eerste stap wordt het medium waarop het digitale archief staat, aangesloten op de quarantainecomputer. Vooraleer je dit doet, geef je een tijdelijk nummer aan je medium (bijvoorbeeld BE AMVB 283 #1). Dit nummer neem je over in de spreadsheet waarin je al een aantal metadata opneemt zoals bijvoorbeeld het type medium (CD, DVD, …) en de omvang van de bestanden. Deze metadata vind je fysiek op het medium of in de lijst met eigenschappen. Wanneer dit gebeurd is, kan je het archief controleren op virussen of malware.
Benodigdheden
Gebruik
- Om Panda Security een virusscan te kunnen laten uitvoeren op de bestanden van het medium, dient een opdracht gegeven te worden via de Terminal: sudo /opt/PCOPAgent/PCOPScheduler/pavsl-bin/pavsl.sh –cmp –heu –rpt /opt/PCOPAgent/Common/ScansLogs/SCAN_2000.log /media/vrijwilliger02/[naam medium]
- De Terminal zal het volgende als antwoord geven: Exported environment variable: LD_LIBRARY_PATH=./ Starting /opt/PCOPAgent/PCOPScheduler/pavsl-bin/pavsl.sh –cmp –heu –rpt /opt/PCOPAgent/Common/ScansLogs/SCAN_2000.log /media/vrijwilliger02/[naam medium] &
- Panda Security is nu op de achtergrond de virusscan aan het uitvoeren. Na de virusscan kan je op de console (www.pandacloudsecurity.com) controleren of er malware aanwezig is.
Opgelet!
Het toekennen van een tijdelijk nummer is belangrijk, zeker wanneer je meerdere media per archief behandelt. Je gaat de inhoud van alle media immers samenvoegen tot één geheel, alvorens het op te laden in Archivematica. Door ze elk een ander nummer te geven, blijft het onderscheid tussen de media -en dus ook de context - bewaard.
Vaak zal de archiefvormer extra informatie hebben geschreven op het medium (bijvoorbeeld een korte inhoudsomschrijving). Het is belangrijk dat deze metadata niet verloren gaat. Voer daarom in een spreadsheet de volgende informatie in:
- (Tijdelijk) nummer
- Medium, bijvoorbeeld: CD, DVD, floppy, etc.
- Producent, bijvoorbeeld: Sony, Memorex, Verbatim, etc.
- Specificaties van het medium
- Datum van aanmaak (indien vermeld op het medium)
- Beschrijving (indien vermeld op het medium)
- Auteur(s) (indien vermeld op het medium)
- Opmerkingen
Deze spreadsheet maak je zelf aan op het werkstation en wordt in een laatste fase toegevoegd aan het containerbestand. Omdat tijdens het schonen nog een aantal logbestanden aangemaakt zullen worden, is het aangeraden een map te maken in "Documenten" en daar alle logbestanden in op te slaan. Geef deze map de naam van het archief of de archiefnummer, bijvoorbeeld: BE_AMVB_283_metadata. Zo vind je steeds alle metadata terug.
2. Plaats op het werkstation
Wanneer het archief vrij is van virussen of andere malware, kan het geplaatst worden op het werkstation.
Benodigdheden
Gebruik
Vooraleer je het archief kopieert naar het werkstation, maak je een map waar het archief in terecht zal komen. Geef deze map een naam die je makkelijk kan identificeren, zoals bijvoorbeeld het archiefnummer. De map bevindt zich het best op de plaats van waaruit Archivematica later de bestanden zal importeren in de tool, bijvoorbeeld: /srv/archivematica/drv1/[Archiefnummer]
Om het archief over te zetten naar het werkstation, maak je best gebruik van het commando rsync, in plaats van het archief manueel te kopiëren. Hierdoor wordt de kans op een corrupte overdracht tot een minimum herleid. Bovendien zal Linux in tegenstelling tot bij een manuele overdracht het medium niet ontkoppelen bij een (te) groot aantal foutmeldingen. Typ volgend commando in de Terminal: sudo rsync -avz /media/vrijwilliger02/[naam medium] /srv/archivematica/drv1/[naam map]
Opgelet!
Wanneer je het archief hebt gekopieerd naar het werkstation, is de kans groot dat de rechten van de map aangepast moeten worden (zodat in een later stadium Archivematica deze bestanden automatisch kan importeren). Gebruik hiervoor het volgende commando: sudo chmod -R ugo+rwx /srv/archivematica/drv1/[naam map]
In sommige gevallen zal de terminal een foutmelding geven en het desbetreffende bestand niet kunnen overzetten naar het werkstation. Vaak gaat het over bestanden die beschadigd zijn. Zowel tijdens het proces als op het einde geeft de terminal weer welke bestanden wegens een fout niet zijn kunnen gekopieerd worden. In deze situatie kan je steeds proberen het bestand manueel te kopiëren. Een half bestand bevat immers soms nog voldoende informatiewaarde om bewaard te worden. Vergeet niet te noteren welke bestanden niet door rsync gekopieerd zijn kunnen worden! De terminal maakt immers niet automatisch een logbestand aan. Bewaar deze en komende logbestanden in een map in “Documenten” die je een duidelijke naam geeft, zoals bijvoorbeeld het archiefnummer.
3. Integriteit controleren
Wanneer je rechtstreeks (met kabel) van je medium naar het werkstation kopieert, is het controleren van de integriteit niet nodig. Er kan immers niets mislopen in deze fase. Bovendien zal rsync aangeven welke bestanden niet (correct) zijn overgedragen, zodat je een lijst hebt met ‘corrupte’ bestanden. Wanneer je archief overdraagt via de FTP-server, is het wel noodzakelijk om checksums te berekenen en te vergelijken.
Benodigdheden
Gebruik
- Installeer Hashdeep indien dit nog niet is gebeurd
- Typ volgend commando in Terminal, met het juiste pad naar de map waarnaar je het archief hebt versleept, in dit geval /srv/archivematica/drv1/[naam map]: hashdeep –r –b /srv/archivematica/drv1/[naam map] > output.txt
- Typ volgend commando in Terminal, met het juiste pad naar de map vanwaar het archief komt, in dit geval /media/vrijwilliger02/[naam map]: hashdeep –r –a –b –k output.txt /media/vrijwilliger02/[naam map]
De Terminal zal laten weten of het archief integer is verplaatst of niet. Wanneer hij “Audit passed” zegt, zijn alle bestanden correct gekopieerd. Wanneer hij “Audit failed” zegt, zijn er een of meerdere bestanden niet (juist) overgedragen. Om te achterhalen welke bestanden corrupt zijn, dien je volgend commando in de Terminal te typen, met het juiste pad naar de map vanwaar het archief komt, in dit geval /media/vrijwilliger02/[naam map]: hashdeep –r –w –x –k output.txt /media/vrijwilliger02/[naam map]
4. Verborgen bestanden zichtbaar maken
Vooraleer je een aantal bewerkingen kan doen op het archief, dienen verborgen bestanden zichtbaar gemaakt te worden. Deze handeling gebeurt in Linuxomgeving op het werkstation.
Benodigheden
Gebruik
- Wanneer de bestanden onzichtbaar werden gemaakt in Windows- of Appleomgeving, is er geen probleem. Zij worden steeds weergegeven in de Linuxomgeving zonder dat je instellingen moet aanpassen.
- Wanneer de bestanden onzichtbaar werden gemaakt in Linuxomgeving, dien je wel zelf een aantal instellingen aan te passen:
- Open de tab “Bestanden”
- Ga naar “Beeld”
- Vink “Verborgen bestanden tonen” aan
Vanaf nu zullen alle verborgen mappen en bestanden steeds getoond worden. Je kan ze herkennen aan hun map-/bestandsnaam die begint met een punt. Controleer regelmatig of deze instelling nog altijd is aangevinkt.
5. Decomprimeer
Wanneer alle mappen en bestanden zichtbaar zijn, kan een eerste bewerking gedaan worden op het archief: het decomprimeren.
Benodigdheden
Gebruik
a. Opsporen van gecomprimeerde mappen
Om gecomprimeerde mappen en bestanden op te sporen, maak je gebruik van volgende methoden:
- Informatie verkregen bij de prospectie: het kan zijn dat de archiefvormer tijdens de prospectie reeds aangeeft dat er gecomprimeerde mappen aanwezig zijn en eventueel waar deze zich bevinden. Noteer deze informatie nauwkeurig, zodat dit al een hoop zoekwerk vermindert. Let wel: het is noodzakelijk om ook zelf nog te controleren of er gecomprimeerde mappen/bestanden in het archief zitten.
- Via een aantal commando’s in de Terminal kan je bepaalde bestandsformaten – waaronder die van gecomprimeerde mappen – laten oplijsten:
- Verander eerst de bestemming van je terminal naar waar het archief zich bevindt: cd /srv/archivematica/drv1/[naam map]
- Voer dan een script uit die zal zoeken naar gecomprimeerde bestandsformaten: sudo bash /home/[gebruiker]/Downloads/search-packages.sh
De output van de terminal komt terecht in een tekstbestand opgeslagen in de map “Documenten” van de gebruiker. Elk document krijgt de naam van een compressieformaat, bijvoorbeeld “zip.odt” of “rar.odt”. Deze output bevat een oplijsting van alle bestanden/mappen met de voornaamste extensies die worden gebruikt voor compressie. Zijn deze bestanden leeg, dan wil dit zeggen dat er geen gecomprimeerde map in het desbetreffende compressieformaat is gevonden. Lege logbestanden mag je verwijderen.
b. Decomprimeren van gecomprimeerde mappen
Het decomprimeren van de mappen gebeurt door middel van een aantal stappen:
- Maak een nieuwe map aan waar de gedecomprimeerde bestanden in moeten komen te staan en geef deze dezelfde naam als de te decomprimeren map.
- Verander in de terminal de bestemming: cd /srv/archivematica/drv1/[pad naar nieuwe map]
- Decomprimeer de bestanden aan de hand van volgend commando: 7z x /srv/archivematica/drv1/[pad naar de gecomprimeerde map]
De gedecomprimeerde bestanden bevinden zich nu in de nieuwe map. In de terminal krijg je na de decompressie informatie over het aantal bestanden en de omvang van deze bestanden (in kB). Omdat de te decomprimeren map niet automatisch wordt verwijderd door 7-zip, dien je dit nog handmatig te doen na de decompressie.
Opgelet!
Het script search-packages.sh kan je hier terugvinden. Kopieer de tekst en plak deze in tekstverwerker gedit. Sla dit bestand op in de map Downloads onder de naam search-packages.sh
Dit script is specifiek geschreven voor het AMVB. Indien je dit script ook wil gebruiken voor je instelling, dien je de output (het gedeelte achter de ">") aan te passen naar de gebruiker op je werkstation, bijvoorbeeld: /home/Gebruiker1/Documenten/7z.odt
In sommige archieven zal je heel wat gecomprimeerde mappen vinden – bijvoorbeeld wanneer een hele computer is overgedragen. Overweeg eerst of de desbetreffende mappen relevant zijn om bij te houden. Mappen die geen informatiewaarde bevatten, zoals ‘program files’, en die verwijderd zullen worden, hoeven dus niet gedecomprimeerd te worden. Dit bespaart alvast tijd en moeite!
6. Verwijder versleutelingen
Vooraleer het archief verder gereed te maken voor de opslag in het e-depot, moet je eerst eventuele versleutelingen verwijderen. Dit doe je manueel met de informatie die je verkreeg tijdens de prospectie.
7. Verwijder dubbels
De laatste stap voordat het archief geïmporteerd en 'klaargestoomd' kan worden in Archivematica, is het opsporen en eventueel verwijderen van dubbels. Dit doe je met de tool FSLint, omdat Archivematica dit niet automatisch doet.
Benodigdheden
Gebruik
Om dubbels op te sporen en te verwijderen wordt de tool “FSLint” gebruikt:
- Open de tool.
- Voeg de map van het archief toe door te klikken op “Toevoegen” en de map te selecteren.
- Klik op “Zoeken”.
- De dubbele bestanden worden nu weergegeven. Vergeet deze lijst niet op te slaan!
- Je kan via “Selecteren” “in groepen” alles laten selecteren behalve de oudste, behalve de eerste of behalve de nieuwste. Ook deze (geselecteerde) lijst kan je opslaan.
- Verwijder de dubbels door ze te selecteren en op “Verwijderen” te klikken. Vergeet de lijst met geselecteerde bestanden niet op te slaan alvorens de bestanden te verwijderen. Op die manier heb je een overzicht van wat verwijderd is.
Opgelet!
FSLint zal dubbels opsporen aan de hand van checksums (die de tool zelf berekent) en de bestandsgrootte. Schrik dus niet als twee bestanden met een verschillende naam als dubbels worden aangeduid.
Vergeet niet te controleren of de optie “recursief?” aangevinkt is. Dit zorgt er immers voor dat FSLint tot op het diepste niveau zal zoeken naar dubbels.
Om bestanden te verwijderen, dien je ze handmatig aan te duiden en dan op verwijderen te klikken. Het verwijderen van dubbels kan niet als je een selectie maakt door middel van de tool (alles behalve eerste, oudste, nieuwste). Controleer of de tool links onder vermeldt dat de bestanden wel degelijk zijn verwijderd. Indien er niets staat, zijn de bestanden niet verwijderd.
Enige voorzichtigheid is geboden bij het verwijderen van dubbels. Dubbels kunnen in verschillende dossiers thuishoren. Daarom is het aangewezen om eerst na te gaan waar de dubbels zich juist bevinden:
- Wanneer dubbels in eenzelfde map zitten, kunnen ze sowieso verwijderd worden.
- Wanneer dubbels in verschillende mappen voorkomen, kunnen ze deel uitmaken van dat dossier. Hiervoor is een inhoudelijke selectie nodig. Dit valt echter buiten de scope van deze handleiding.
Wanneer je dubbels verwijderd, worden ze definitief uit het archief verwijderd: ze komen niet terecht in de prullenmand! Je kan deze actie dus niet terugdraaien!
FSLint laat ook toe om lege mappen op te sporen (en te verwijderen). Aangezien Archivematica automatisch lege mappen verwijdert zonder deze ergens op te lijsten, is het handig als hier een logbestand wordt aangemaakt van de lege mappen:
- Ga (NA het verwijderen van dubbels) naar de tab “Lege mappen”.
- Voeg de map van het archief toe door te klikken op “Toevoegen” en de map te selecteren.
- Klik op “Zoeken”.
- De lege mappen worden nu weergegeven. Vergeet deze lijst niet op te slaan!
8. Archivematica
De installatie en het gebruik van de archiveringstool is goed gedocumenteerd. Je kan in de eerste plaats terecht op de eigen website https://www.archivematica.org/en/docs/archivematica-1.4/ Als je de juiste informatie hier niet terug zou vinden, probeer je best eens te kijken in de Google Group van Archivematica: https://groups.google.com/forum/#!forum/archivematica Hier worden specifieke problemen behandeld door de ontwikkelaar van de tool (Artefactual). Wanneer je een probleem ondervindt, en dit nog niet op dit forum staat, kan je steeds een nieuw onderwerp beginnen. Vaak antwoorden de medewerkers van Artefactual binnen de 3 werkdagen.
Benodigdheden
Instellingen
Als je Archivematica voor een eerste keer gaat gebruiken – bijvoorbeeld na een installatie of een update naar een nieuwe versie – moet je enkele instellingen aanpassen. Deze instellingen zijn voor iedere organisatie anders. Baseer je hiervoor op wat je wil doen en bereiken met Archivematica en ook op het preserveringsbeleidsplan (bijvoorbeeld voor de migratietrajecten aan te passen). Hier alvast enkele instellingen die je best kan controleren en aanpassen indien nodig:
a. Storage Service (localhost:8000)
Vooraleer je archief kan importeren in Archivematica, moet je instellen vanuit welke map deze ingest zal gebeuren:
- Ga naar de tab “Spaces” en klik op “Create location here”
- Kies bij “Purpose” voor “Transfer source”
- In het vak “Relative path” geef je het juiste pad naar de desbetreffende map, bijvoorbeeld /srv/archivematica/drv1
- Zorg ervoor dat de locatie “Enabled” is.
- Gebruik deze werkwijze ook wanneer je in de toekomst – bijvoorbeeld vanwege plaatsgebrek – vanuit een andere map de ingest zal laten uitvoeren. Zo kan je ook de locatie van je externe harde schijf als “Transfer source” opnemen. Dit is zeker nodig voor grote archieven die niet bewaard kunnen worden op het werkstation. Op dit moment is de locatie ingesteld op /srv/archivematica/drv1/
b. Dashboard – Administration (localhost)
Bij de “Processing configuration” kan je al enkele zaken instellen die tijdens de transfer en ingest moeten gebeuren. Zo kan je al aanduiden welke identificatietool voor bestandsformaten je zal gebruiken. Je kan ook instellen dat Archivematica dit tijdens het proces aan je vraagt, zodat je op het moment van de "transfer" en "ingest" zelf nog kan kiezen.
c. Dashboard – Preservation planning
Onder deze tab kan je in de eerste plaats informatie terugvinden over de bestandsformaten die Archivematica door middel van tools kan identificeren, migreren en valideren. Welke (versies van) tools hiervoor gebruikt worden, vind je onder “Format policy registry – Tools”.
Wanneer je de migratiepaden wil bekijken, ga je naar de tab “Normalization – Rules”. In deze tabel worden alle acties opgesomd die Archivematica onderneemt als je de archiefbestanden wil migreren naar raadplegingskopieën (“Access”) en/of archiveringskopieën (“Preservation”). Controleer de eerste keer dat je Archivematica gebruikt zeker de voorgestelde trajecten. Deze komen immers niet altijd overeen met wat in je preserveringsplan staat. Wanneer je een actie wil veranderen, klik je op “Replace” achteraan de desbetreffende rij in de tabel. Wanneer je een nieuwe actie wil toevoegen, klik je op “Create New Rule” bovenaan de pagina. Je hoeft dit slechts eenmaal te doen, tenzij je een bepaald traject in de loop van het gebruik van Archivematica verandert.
Let op: De gekozen migratiepaden hangen af van je preserveringsplan. Daarin beschrijf je immers welke bestandsformaten je in je digitaal archief verwacht tegen te komen en naar welk raadplegings- en archiveringskopie dit dient gemigreerd te worden. Dit is sterk afhankelijk van de vastgestelde preserveringsniveaus. Het is dus best mogelijk dat de gekozen acties per archiefinstelling verschillen.
Gebruik
Vooraleer je de archiveringstool kan gebruiken, dien je een script te laten uitvoeren in de Terminal:
- Download (eenmalig) het script op https://raw.githubusercontent.com/PACKED-vzw/archivematica-scripts/master/scripts/archivematica-restart.sh
- Sla dit script op in je “downloads"-directory op het werkstation (waar Archivematica op geïnstalleerd is).
- Open de Terminal en voer volgende commando’s uit:
- cd /locatie/van/het/bestand (bv. /home/vrijwilliger02/Downloads)
- sudo bash archivematica-restart.sh
Deze laatste handeling dien je steeds te doen als je de computer hebt afgesloten en/of (weer) hebt opgestart. Ook wanneer je om een bepaalde reden niet in het Dashboard geraakt, is het aangeraden eerst dit script uit te voeren. Vaak lost dit al heel wat problemen op.
Archivematica zal tijdens de analyse en bewerkingen automatisch logbestanden maken. Wanneer ze hieronder bij naam zijn vermeld, vind je ze terug in het containerbestand (de gecomprimeerde map die Archivematica na de bewerkingen op het werkstation plaatst).
a. Start transfer
Ga naar de tab “Transfer” in het Dashboard. Geef het archief dat je wil importeren een naam, bijvoorbeeld het archiefnummer, en eventueel een identificatienummer. Blader in de aangegeven map en selecteer de juiste hoofdmap. Klik op “Start transfer”. Archivematica zal nu de archiefbestanden importeren in de tool. Vooraleer verder te gaan zal de tool vragen om de transfer goed te keuren: “Approve transfer” of “Reject transfer”.
b. Controleer integriteit
Checksums worden tijdens de vijfde micro-service automatisch berekend en vragen geen tussenkomst van de gebruiker. Archivematica zal de sha-512 versie gebruiken. Net voor de creatie van de AIP/DIP zal Archivematica nogmaals checksums genereren en vergelijken met de eerste. Wanneer checksums niet meer overeenstemmen, geeft Archivematica een foutmelding. Alle checksums bewaard in een logbestand, genaamd manifest-sha512.txt
c. Virusscan (2)
Archivematica zal gebruik maken van de tool ClamAV voor het controleren op virussen. Aangezien we in een eerdere fase reeds een virusscan hebben uitgevoerd op het archief (in de quarantaine-omgeving), zouden er hier normaal gesproken geen geïnfecteerde bestanden (meer) mogen bevinden. Wanneer ClamAV toch malware heeft opgespoord, zal de transfer van het hele archief worden stopgezet. Ook deze actie verloopt volledig automatisch. Je moet dan zelf nog het geïnfecteerde bestand verwijderen, zodat je het archief opnieuw kan opladen in Archivematica.
d. Uniformiseer bestandsnamen
Tijdens de twaalfde micro-service worden de namen van de archiefbestanden automatisch geüniformiseerd. De meeste speciale tekens krijgen een geldig alternatief, maar het liggend streepje en de haakjes worden niet vervangen. De uniformisering van de bestandsnamen wordt bijgehouden in een logbestand, genaamd filecleanup.log
e. Identificeer bestandsformaten
Archivematica geeft je als gebruiker de mogelijkheid om de bestandsformaten van de archiefbescheiden te identificeren. Je kan uit het volgende kiezen:
- Fido version 1 PUID runs Identify using Fido
- Skip File Identification
- Siegfried version 1.0.0 PUID runs Identify using Siegfried
- File Extension version 0.1 file extension runs Identify using File Extension
Hier kies je het best voor Siegried, aangezien deze het meest accuraat (moeilijke) bestandsformaten weet te identificeren. Wanneer je kiest om de identificatie niet uit te voeren, zullen verdere automatische preserveringsacties (zoals de migratie) niet kunnen uitgevoerd worden. Het logbestand met de bestandsformaten krijgt de naam fileFormatIdentification.log
f. Creatie SIP
Een laatste fase in de “transfer” is het maken van een SIP-container. Archivematica zal de volgende keuzes geven:
- Create single SIP and continue processing
- Send to backlog
- Reject transfer
Om verder te gaan kies je voor de eerste optie. Hierna zal Archivematica verder gaan in de tab “Ingest”. Om de bewerkingen door Archivematica op het archief te beëndigen, kies je voor “Reject transfer”.
g. Migratie
Archivematica biedt de mogelijkheid om archiefbestanden te migreren naar archiverings- en/of raadpleegkopieën. Tijdens de micro-service “Normalize” zal de tool dan ook vragen welke actie je wil laten uitvoeren:
- Normalize for preservation and access
- Normalize for preservation
- Reject SIP
- Normalize service files for access
- Do not normalize
- Normalize manually
- Normalize for access
Afhankelijk van je preserveringsplan – bijvoorbeeld je preserveringsniveaus – selecteer je hier de juiste optie. In het AMVB gaan we resoluut voor de migratie naar archiveringskopieën (normalize for preservation). Afhankelijk van de grootte van het archief kan deze migratie een hele tijd duren. Nadien kan je de migratie goedkeuren (dan gaat Archivematica gewoon verder), afkeuren (dan worden de gemigreerde bestanden verwijderd) of overdoen (dan wordt nogmaals de migratieactie uitgevoerd). Je kan niet zelf kiezen waar deze gemigreerde bestanden worden bewaard in het containerbestand: ze komen in dezelfde map terecht als het oorspronkelijke bestand.
h. Metadata
Je kan ten alle tijden metadata toevoegen in Archivematica door te klikken op het symbool rechtsboven de kader (tekstblok met potlood). Je kan een algemeen metadata-formulier invullen (“Metadata – add”) of specifiek informatie betreffende de rechten invullen (“Rights – add”). Hier vind je tevens ook een log van alle micro-services. Aangezien het SODA-invulformulier al deze metadata bevat, is het niet noodzakelijk deze nog eens handmatig in te voeren in de formulieren die Archivematica ter beschikking stelt.
Opgelet!
Wanneer je een groot archief door Archivematica laat analyseren en bewerken, zullen sommige 'micro-services' enige tijd in beslag nemen. Zo duurt het zeker 10 dagen om aan ca. 10.000 bestanden metadata toe te kennen ("characterize and extract metadata"). Schrik dus niet als het lang lijkt te duren.
Archivematica heeft geen pauzeknop. Schakel het werkstation niet uit zolang de tool het archief aan het analyseren/bewerken is. Indien je dit wel zou doen, moet je het archief opnieuw opladen in Archivematica en alles van de start opnieuw laten analyseren/bewerken.
9. Plaats op NAS
Bij het AMVB werd gekozen om het digitaal archief op te slaan op een NAS. Er werd niet gekozen voor een cloudoplossing, omdat de kosten voor deze laatste op lange termijn hoger zou zijn dan de aankoop en onderhoud van een NAS: je betaalt daar immers meestal per GB/TB. Bovendien beschikte het AMVB reeds over een NAS, wat de kosten drukte. In deze laatste stap wordt het archief van het werkstation naar de NAS verplaatst en wordt de laatste metadata toegevoegd aan het containerbestand.
Benodigdheden
Gebruik
Het containerbestand dat Archivematica heeft gecreëerd, staat nu in een gecomprimeerde map (.7z) op de locatie /var/archivematica/sharedDirectory/www/AIPsStore/[naam UUID]. Het containerbestand bestaat uit:
- De archiefbescheiden
- De archiveringskopieën (eventueel)
- Logbestanden Archivematica
- Thumbnails
Dit containerbestand dient gedecomprimeerd te worden, zodat het op een correcte manier bewaard kan worden op de NAS:
- Maak een nieuwe map aan waar de gedecomprimeerde bestanden in moeten komen te staan en geef deze dezelfde naam als de te decomprimeren map.
- Verander in de Terminal de bestemming: cd var/archivematica/sharedDirectory/www/AIPsStore/[pad naar nieuwe map]
- Decomprimeer de bestanden aan de hand van volgend commando: 7z x /var/archivematica/sharedDirectory/www/AIPsStore/[naam UUID]/[naam gecomprimeerde map]
- Kopieer de map naar de NAS (DigitaalDepot). Dit doe je door de map manueel te kopiëren (ctrl+c en ctrl+v) naar de NAS.
- Controleer de integriteit (zie hierboven).
- Voeg overige metadata toe (zie hieronder).
De gedecomprimeerde bestanden bevinden zich nu in de nieuwe map op de NAS. Omdat de te decomprimeren map niet automatisch wordt verwijderd door 7zip, dien je dit nog handmatig te doen.
Opgelet!
Wanneer het archief op de NAS staat, is het belangrijk dat overblijvende log- en metadatabestanden – zoals het SODA-invulformulier – aan het archief worden toegevoegd. Archivematica heeft tijdens de ingest een map submissionDocumentation aangemaakt met daarin een metadataformulier (METS). Het is in deze map dat ook het SODA-invulformulier en andere logbestanden bewaard zullen worden.
Bronnen
Stappenplan voor de Overdracht van Digitaal Archief (SODA)
Contactgegevens
Frederik Geysen, archivaris
frederik.geysen@amvb.be
02 209 06 03
Lien Ceûppens, archivaris
lien.ceuppens@amvb.be
02 209 06 00