Publicatie:Handleiding websites archiveren
In deze handleiding worden verschillende strategieën voor het archiveren van websites stap voor stap uitgelegd
Titel | Handleiding websites archiveren (Voorkeurstitel) Hoe archiveer je websites? (Alternatieve titel) |
Locatie | |
Uitgever | |
Jaar van uitgave | 2020 |
Rechten | CC-BY-SA |
Persistent ID |
De meeste organisaties hebben al een of meer websites versleten. Bij de overgang naar een nieuwe website stellen organisaties zich de vraag hoe ze de oude kunnen archiveren. Vaak bevat zo’n oude website interessante gegevens die niet meer relevant zijn voor de nieuwe, maar die wel een historische waarde hebben voor de organisatie. Wat is dan de eenvoudigste manier om die informatie te archiveren?
Nog niet zo heel lang geleden bestonden websites enkel uit statische HTML-pagina’s[1]. Dit zijn eenvoudige tekstpagina’s met een opmaak die de webbrowser kan omvormen tot een webpagina. Om deze websites te archiveren, volstond het om het mapje met de bestanden naar je eigen computer te kopiëren. Recente websites maken echter gebruik van een Content Management Systeem (CMS). Dit is een databank waarin de website-informatie wordt beheerd en waarin webpagina’s samengesteld worden op het ogenblik dat ze geopend worden. Dit maakt de website dynamisch, maar ook veel moeilijker om te archiveren.
In dit artikel bespreken we hoe zo’n (dynamische) website op een eenvoudige manier digitaal gearchiveerd kan worden. De website zal terug statisch gemaakt worden en offline opgeslagen worden in een vorm waarin ze op lange termijn bewaard kan worden. Net zoals bij e-mails is het digitaal zijn bij websites een essentiële eigenschap die bewaard moet worden. Zonder digitale bewaring zou je de look & feel en de ervaring om door de website te surfen missen.[2]
Te ondernemen stappen
Analyseer je website
Maak eerst een analyse van je website. De keuze voor een archiveringsmethode is afhankelijk van het type, de inhoud en de elementen van je website.
Er bestaan grofweg drie types van websites: statische websites met vaste inhoud, dynamische websites waarbij de inhoud gehaald wordt uit het deep web[3] en een tussenvorm van die twee. Statische websites bestaan uit een aantal aan elkaar gekoppelde pagina’s en zijn meestal in HTML[1] opgemaakt. Er kunnen zich links met afbeeldingen of links naar andere websites in bevinden. Alle bestanden zijn in een hiërarchische mappenstructuur op de webserver gestockeerd. Een dynamische website is een website die samengesteld wordt op het moment dat ze geopend wordt. Hierbij hebben de pagina’s zelf geen inhoud, maar worden ze opgevuld met inhoud die zich in een achterliggende databank bevindt, zoals bij een CMS. Door middel van cookies wordt specifieke gebruikersinformatie op de computer van de gebruiker bewaard waarmee de browser de inhoud van een webpagina kan aanpassen aan de persoonlijke voorkeuren van de gebruiker. De meeste websites zijn een tussenvorm van statisch en dynamisch.[2]
Bekijk daarnaast uit welke inhoud en elementen je website bestaat. Bevat je website veel links naar andere websites? Maakt je website gebruik van externe diensten, zoals kaarten van Google Maps, filmpjes op YouTube of foto’s die op een online fotoservice staan? Ook geanimeerde of interactieve beelden en knoppen zorgen voor een extra uitdaging bij het archiveren. Deze elementen maken het archiveren van websites complex en zijn vaak moeilijk te bewaren. Bepaalde functionaliteiten kun je verliezen, zoals het afspelen van Flash-animaties[4] of elementen waarvoor plug-ins[5] geïnstalleerd moeten worden. Interactieve elementen kunnen in gearchiveerde websites niet meer werken, net zoals bestanden die van een andere website opgehaald worden.
Leg doelstellingen vast
Daarnaast is het belangrijk om een aantal duidelijke doelstellingen te formuleren alvorens een archiveringsmethode te kiezen. Het kiezen van een archiveringsmethode houdt namelijk een aantal keuzes in. Een eerste keuze betreft wat van de website vastgelegd moet worden bij archivering: de volledige website, inclusief de externe webpagina’s waarnaar je website verwijst, of enkel het domein van je eigen website? Een tweede keuze betreft de frequentie waarmee de onderdelen gearchiveerd moeten worden.[2]
Het vastleggen van webpagina’s houdt een aantal uitdagingen in die voortvloeien uit hun speciale karakter. Websites hebben een erg vluchtig karakter omdat ze regelmatig geactualiseerd en aangepast worden. Bovendien is de presentatie van een webpagina op het scherm afhankelijk van de interactie met de gebruiker (o.a. webbrowser, persoonlijke instellingen en voorkeuren). Webpagina’s zijn tevens sterk met elkaar verweven: ze zijn aan elkaar gekoppeld, worden soms op meerdere servers gehost of halen informatie uit externe services of websites op.[2]
Je zal dus moeten bepalen wanneer je je website gaat archiveren en hoe je de te archiveren website afbakent. Ga je enkel de website capteren als hij offline gehaald wordt, jaarlijks, of bij iedere update? Wordt enkel de website van je eigen domein of ook alle pagina’s waarnaar verwezen wordt gearchiveerd? Bij het archiveren van websites zal je moeten accepteren dat er steeds leemten zullen zijn.
Bewaar de essentiële kenmerken van je website
Door de vluchtigheid van het medium en de persoonlijke ervaring bij webpagina’s is authenticiteit een moeilijk begrip bij het archiveren van websites. Toch kunnen een aantal essentiële eigenschappen gedefinieerd worden[2]:
- Context: dit zijn gegevens die aanduiden wat de relatie van de website tot de archiefvormer is. Je kan dit o.m. bewaren door beschrijvende metadata over je website vast te leggen.
- De inhoud waaruit je website bestaat: tekst, foto’s, video’s, kaarten, etc. Sommige elementen, zoals informatie die van externe diensten opgehaald worden (bv. YouTube, Google Maps en Flickr), zijn moeilijk te archiveren. Documenteer daarom de externe diensten die je website gebruikt.
- Structuur: dit geeft de relatie weer tussen de website en zijn onderdelen. De meeste websites hebben een sitemap[6] die de structuur van de website toont. Je kan deze eigenschap bewaren door de originele structuur van je website (d.i. de originele structuur van de webpagina’s van je website op de webserver) te bewaren en de relaties tussen de verschillende webpagina’s te behouden.
- Look & feel: Bij een website is niet enkel de inhoud, structuur en context belangrijk, maar ook de look & feel is een essentieel component dat bewaard moet worden. Documenteer daarom steeds de technische omgeving waarin je website gemaakt is: bv. de CMS-software die je gebruikt, de plug-ins[5] die je website nodig heeft om bepaalde componenten weer te geven en de serverconfiguratie. Registreer ook de periode waarin je website online was. Dit geeft een beeld van de gebruikte HTML-versie[1], de software en de versies van browsers waarin de website getoond kan worden. Op basis van deze informatie kan een reconstructie van de website gemaakt worden.
- Websites kunnen ook specifiek gedrag en functionaliteiten hebben, zoals animaties, interactieve elementen en hyperlinks. Daarvoor registreer je ook de technische omgeving van je website. Functionaliteiten kun je verliezen bij het kiezen van een bepaalde archiveringsmethode.
Essentiële kenmerken worden bewaard zodat een getrouwe reconstructie van de website mogelijk is en de website binnen zijn context gearchiveerd wordt. Op de website van eDAVID kan je een document vinden met een lijst van alle metadata die bewaard dienen te worden. Sla dit document op als een gestructureerd tekstbestand (bv. als XML-, CSV- of Excel-bestand) en bewaar dit samen met de gearchiveerde website in het digitale archief. Hou ook alle bijkomende documentatie over je website bij. Dit kan van pas komen indien emulatie in de toekomst nodig zou zijn.
Archiveer een website steeds alvorens hem offline te halen en van de webserver te verwijderen. Dit geeft je de mogelijkheid om na het archiveren kwaliteitscontrole uit te voeren en te controleren of alle essentiële eigenschappen bewaard zijn.
Bewaar de website duurzaam
Voor de preservering van websites gelden de algemene regels met betrekking tot duurzame bewaring. Zorg steeds dat je goede back-upprocedures gebruikt en dat je van je bestanden verschillende back-ups hebt die op verschillende (geografische) locaties bewaard worden. Bewaak de integriteit van je gearchiveerde website door checksums te gebruiken en de bestanden periodiek te controleren.
Een uitdaging voor de langetermijnbewaring van websites zijn de grote hoeveelheid aan bestandsformaten die op websites geplaatst kunnen worden. Het is complex om deze te migreren naar duurzame bestandsformaten omdat de relatie tussen webpagina en bestand op deze manier verbroken kan worden. Onderzoek wijst echter uit dat websites hoofdzakelijk gestandaardiseerde formaten gebruiken, zoals HTML[1], JPEG, MP3, etc., waardoor dit probleem te relativeren valt. Een oplossing voor deze uitdaging is om websites te archiveren in het WARC-formaat. Dit is een open standaardformaat om verschillende digitale bronnen met metadata in één archiefbestand op te slaan. Het archiveren van websites in het WARC-formaat is echter complex en wordt in dit artikel niet behandeld.[7]
Archiveringsmethodes
In dit deel worden drie archiveringsmethodes besproken:
- je website laten archiveren door een organisatie die dit als missie heeft;
- zelf een offline kopie maken;
- zelf een video van een surfsessie maken.
Elke methode heeft haar gebreken. Je kunt daarom een aantal methodes combineren om ieder aspect van je website te bewaren.
Laat je website archiveren door een organisatie die dit als missie heeft
The Internet Archive heeft als doel om alle kennis van het web te verzamelen en te bewaren. De Wayback Machine van The Internet Archive is de grootste externe (gratis) webarchiveringsdienst. Op deze manier werden al meer dan 40 miljard pagina’s gearchiveerd. De meeste websites worden gearchiveerd zonder dit te melden. De Wayback Machine maakt op meerdere tijdstippen een momentopname van websites. Neem dus zeker eens een kijkje om te zien of er al opnames van jouw website gearchiveerd werden. Je kunt je website invoeren en de opdracht geven om die te archiveren als dit nog niet gebeurd is.
Het voordeel aan deze methode is dat je website gearchiveerd wordt zonder dat je er zelf tijd of kennis voor nodig hebt. Een nadeel is dat je afhankelijk bent van een externe dienst en zelf geen controle hebt over wanneer de momentopnames gearchiveerd worden. Ook moet je steeds naar de Wayback Machine gaan om je gearchiveerde website te raadplegen en heb je de gearchiveerde website niet in eigen bezit.
Controleer of je website al gearchiveerd werd
- Ga naar de Wayback Machine
- Typ de URL van je website in de tekstbalk en klik op ‘browse history’.
- Je kunt zien dat de website van PACKED vzw al 93 keer werd gecapteerd tussen 15 februari 2004 en 9 oktober 2016.
- Door op een datum te klikken kom je op een oude versie van de gearchiveerde website. Dit is de website van PACKED vzw op 15 februari 2004.
Meld je website aan in Wayback Machine
- Typ je website in de tekstbalk en klik op ‘browse history’.
- Je krijgt een bericht dat je website nog niet gearchiveerd werd. Klik op ‘Save this URL in the wayback machine’.
- Je website wordt gearchiveerd.
- Je website is gearchiveerd. Je krijgt een URL naar de gearchiveerde versie van je website.
Maak een offline kopie
Dit is de meest toegepaste vorm van websitearchivering. Een crawler of offline browser maakt een snapshot van je website en slaat alle bestanden op als een HTML-bestand[1]. Dit is mogelijk doordat de crawler zich als een browser voordoet die iedere pagina van de website bezoekt. In een browser wordt iedere webpagina als een HTML-pagina weergegeven, en daarom wordt iedere pagina als een HTML-bestand opgeslagen. Absolute padaanduidingen worden hierbij omgezet naar relatieve padaanduidingen[8], zodat de website offline geopend kan worden zoals de oorspronkelijke website.
Deze methode kun je toepassen wanneer je alle pagina’s en bestanden waaruit je website bestaat wil bewaren. Het houdt de oorspronkelijke structuur van je website relatief intact en maakt het mogelijk om je website offline te openen en erin te navigeren zoals bij de oorspronkelijke website. Er bestaan eenvoudige tools om een snapshot van je website te maken.
Hou er rekening mee dat crawlers beperkingen hebben. Dynamische webpagina’s waarbij de inhoud gevormd wordt op basis van gegevens die een gebruiker invoert, kunnen niet gearchiveerd worden, net zoals informatie die via een paswoord beveiligd is, bepaalde interactieve elementen en informatie van externe diensten. Ook websites met animaties die een plug-in vereisen om af te spelen, zoals Flash-toepassingen, zullen niet goed gearchiveerd worden.[7]
HTTrack
Een eenvoudige crawler met grafische gebruikersinterface is HTTrack.[9]
- Installeer HTTrack
- Geef een naam aan je webarchief en kies waar je de gearchiveerde website wil opslaan. Klik vervolgens op ‘next’.
- Selecteer een actie. Kies voor ‘download web site(s)’.
- Vul de URL van je website in. Je kunt meerdere URL’s downloaden. Kies in dat geval voor ‘add URL’ en vul de extra URL in. Klik vervolgens op ‘next’.
- Klik op ‘finish’
- De crawler is bezig met het downloaden van je website. Laat het venster open zolang de crawler bezig is.
- De crawler is klaar.
Webrecorder
Webrecorder is een andere tool waarmee je een offline kopie kan maken van je website. De aanpak van Webrecorder is anders dan die van HTTrack. Terwijl HTTrack als een bot je volledige website afgaat en alle pagina’s en bestanden downloadt die publiek beschikbaar zijn, kan je met Webrecorder een opname maken van een surfsessie. Tijdens de surfsessie downloadt Webrecorder alle content die je tegenkomt door het netwerkverkeer en de processen in je browser op te nemen terwijl je als gebruiker interageert met een webpagina. Dit heeft als voordeel dat dynamische inhoud en gebruikersspecifieke content en interacties wél gearchiveerd kunnen worden, wat met HTTrack bijvoorbeeld onmogelijk is. Het is dan wel belangrijk om goed te documenteren welke interacties je aangegaan bent met de website tijdens het archiveren. Als je bijvoorbeeld de zoekfunctie van een website wil bewaren, dan is het belangrijk te documenteren op wat en hoe je gezocht hebt. Webrecorder zal namelijk enkel bewaren wat jij gedaan hebt. Als je gezocht hebt op het woord de mol, dan zal je in de gearchiveerde website niet kunnen zoeken op mol of raaf.
Enkele andere voordelen van Webrecorder ten opzichte van andere software:
- Je kan websites in oudere browsers archiveren door de aanwezigheid van emulatiesoftware. Dat kan nuttig zijn voor oudere websites. Recentere versies van de huidige browsers, zoals Chrome en Firefox, ondersteunen bijvoorbeeld geen Java[10] en/of Flash[11] meer. Als deze technologie nog aanwezig is op een website die je wil archiveren, dan zal je die functies verliezen bij het archiveren. Door de emulatiesoftware in Webrecorder kan je oudere browsers gebruiken die deze technologie wel nog ondersteunen. Zo kan je je website archiveren met zijn volledige functionaliteit.
- De software beschikt over een autopilot-functie die het gedrag van een menselijke gebruiker imiteert, zoals scrollen, een video afspelen, op een foto klikken,... Deze functie is vooral nuttig voor sociale media. Er zijn gespecialiseerde autopilots voor Twitter, Facebook, YouTube, SlideShare, Soundcloud en Instagram. Lees er meer over in de Webrecorder-handleiding.
- Tot slot bewaart Webrecorder de gearchiveerde websites in het WARC-formaat, de internationale standaard voor webarchieven.
Webrecorder is minder geschikt voor het volledig archiveren van grote websites. Je zal namelijk iedere webpagina moeten bezoeken. De autopilot-functie kan immers niet van pagina naar pagina gaan, maar scrolt enkel doorheen een pagina. Voor websites met dynamische of moeilijk te archiveren inhoud, kleine websites of sociale media pagina’s, kan dit een goede strategie zijn. Om grote websites op te slaan in het WARC-formaat, gebruik je beter strategie 2.3 (Wget). Deze is wel iets complexer.
- Open Webrecorder, voer de URL van je website in en geef de opname een naam.
- Wil je het opslaan in een oude browser? Selecteer dan de browser die je wil gebruiken.
- Druk op record.
- Je website wordt geopend en Webrecorder begint met het opnemen van content.
- Terwijl je pagina’s van de website bezoekt, zal Webrecorder meer en meer content opslaan.
- Als je de sessie wil beëindigen, klik dan nog eens op ‘Recording’. Je ziet dan een lijst van de pagina’s die gearchiveerd werden.
- Je kan de gearchiveerde website nu browsen op de website van Webrecorder. Je kan hem tevens downloaden en hem lokaal op je computer bekijken. Klik hiervoor op het icoontje met wolkje en pijl.
- Hiermee download je je website in het WARC-formaat. Je kan dit bestand nu gebruiken om offline je gearchiveerde website te bekijken. Om WARC-bestanden te openen, kan je Webrecorder Player downloaden. Dat is een gratis en open source toepassing van de makers van Webrecorder. Download steeds de ‘latest release’; geen pre-release. In een pre-release kunnen nog fouten zitten.
- Open Webrecorder Player eens je het gedownload en geïnstalleerd hebt. Klik op ‘Open WARC file’ om je webarchief te openen.
- Selecteer je webarchief en klik op ‘Open’.
- Het webarchief zal nu geopend worden in Webrecorder Player. Je kan nu doorheen de pagina’s van de website navigeren die je tijdens je surfsessie gearchiveerd hebt. Als je doorheen je volledige website gegaan bent, kan je doorheen je website navigeren zoals hij oorspronkelijk is.
Wget
Wgetis een computerprogramma dat, net zoals een webcrawler, content ophaalt van webservers. Het is een command line tool en heeft dus geen grafische gebruikersomgeving (GUI) zoals HTTrack of Webrecorder. Deze tool kan je enkel bedienen met behulp van een unix terminal (MacOs en Linux) of via cygwin voor Windows. Wget is sneller dan alle voorgaande tools en kan websites archiveren in het WARC-formaat. Het is ontworpen om robuust te zijn en kan ook webcontent downloaden als je internetconnectie zwak, traag of instabiel is.
Wget is net zoals HTTrack een soort crawler. Dynamische of interactieve elementen zullen verloren raken tijdens het archiveren.
De software is standaard ingebouwd in Linuxcomputers. Macgebruikers kunnen op OSX Daily bekijken hoe Wget gedownload en geïnstalleerd wordt; Windowsgebruikers zullen eerst Cygwin moeten installeren.
- Open de terminal.
- Bij Windows is dit via Cygwin
- Op Mac vind je terminal onder Programma’s > Hulpprogramma’s > Terminal;
- Op Linux kan je zoeken op ‘Terminal’.
- In de terminal typ je vervolgens één commando in waarmee je de volledige website kan downloaden zoals als WARC-bestand als HTML:
wget --mirror --no-clobber --convert-links --page-requisites --html-extension --warc-file=bestandsnaam website
wget
: de naam van de tool.--mirror
: download volledige websites en bewaar de originele bestandsstructuur van de website.--no-clobber
: overschrijf geen bestaande files, bv. in het geval de download zou stilvallen en terug (automatisch) heropgestart wordt.--convert-links
: zet absolute links om naar relatieve links zodat je ook offline kunt browsen.--page-requisites
: download ook alle elementen van de website die noodzakelijk zijn om de HTML-pagina's correct weer te geven--html-extension
: zet de pagina's om in HTML--warc-file=bestandsnaam
: ipv bestandsnaam zet je hier de bestandsnaam die je aan het warc-bestand wil gevenwebsite
: vul hier de URL van je website in.- voorbeeld van het commando:
wget --mirror --no-clobber --convert-links --page-requisites --html-extension --warc-file=20180327_website_packed www.packed.be
- Wget zal vervolgens al de bestanden van je webserver halen
- Wanneer wget klaar is (dit kan enige uren duren - afhankelijk van de grootte van je website), vind je een WARC-file in de thuismap van je computer.
- Op Windows is dit
\Users\gebruikersnaam
. - Op Mac vind je deze map door in Finder voor Ga > Thuismap te kiezen.
- Op Linux is dit
/home/<gebruikersnaam>
- Op Windows is dit
- Om het WARC-bestand te openen, kan je Webrecorder Player gebruiken (zie 2.2 Webrecorder/Conifer). Je kan nu doorheen de volledige website offline navigeren zoals oorspronkelijk.
Maak een video van een surfsessie
Wanneer je een beeld van een website wil archiveren, maar niet alle pagina’s en bestanden wil bewaren, kun je een video maken van een surfsessie op je website. Je kunt dit ook als aanvullende methode gebruiken als de website veel animaties of interactieve elementen bevat of wanneer het gebruik maakt van externe diensten die moeilijk te capteren zijn.
In dit voorbeeld gebruiken we QuickTime . Als je in een zoekmachine ‘screencast’ opzoekt, vind je andere software die je kunt gebruiken.
- Ga naar de website die je wil archiveren.
- Kies in het QuickTime-menu voor ‘Nieuwe schermopname’.
- Een venster verschijnt. Klik op de rode opnameknop om de opname te starten.
- Klik om het volledige scherm op te nemen, of sleep het venster over het scherm om slechts een deel van je computerscherm op te nemen.
- Het venster werd rond de browser gesleept. Klik op ‘start opname’.
- De opname is bezig. Surf doorheen de website. Als je klaar bent, klik je op de ‘stop’-knop die in de menubalk staat.
- Je kunt nu de video bekijken. Klik op ‘Bewaar’ om de video op te slaan.
Verwijzingen
- ↑ 1,0 1,1 1,2 1,3 1,4 HTML is een standaardopmaaktaal voor webpagina’s. Zie: https://nl.wikipedia.org/wiki/HyperText_Markup_Language.
- ↑ 2,0 2,1 2,2 2,3 2,4 F. Boudrez, Archiveren van websites: een kwestie van waardering en ‘capture’. Zie: http://www.edavid.be/docs/archiveren_websites.pdf.
- ↑ Het deep web is het deel van het web dat niet toegankelijk is voor zoekmachines, zoals databanken die afgeschermd worden door middel van wachtwoorden. De databank achter een CMS-systeem is een onderdeel van het deep web. Zie: https://nl.wikipedia.org/wiki/Deep_web.
- ↑ Flash is software van Adobe en wordt o.m. gebruikt om animaties, webvideo’s en webapplicaties te maken en websites aan te kleden. Je hebt een Flash Player plug-in nodig op je webbrowser om deze bestanden af te spelen. Zie: https://nl.wikipedia.org/wiki/Adobe_Flash.
- ↑ 5,0 5,1 Een plug-in of invoegtoepassing is een uitbreiding van een computerprogramma. In een webbrowser wordt het gebruikt om speciale informatie op een website te laten zien, zoals flash-animaties.
- ↑ Een sitemap, soms siteplan, is een pagina of document waarin links naar alle pagina's van een website staan. Dit is een handig hulpmiddel voor bezoekers en zoekmachines om bepaalde pagina's te vinden op een site. Zie: https://nl.wikipedia.org/wiki/Sitemap.
- ↑ 7,0 7,1 M. Pennock, Web-archiving. Zie: http://www.dpconline.org/component/docman/doc_download/865-dpctw13-01pdf.
- ↑ Een absoluut pad is een volwaardige verwijzing naar een bestandslocatie en is het volledige adres van de locatie van een bestand, zoals ‘http://www.heemkunde-vlaanderen.be/contact/’. Een relatief pad gaat uit van de locatie waar een gebruiker of applicatie zich bevindt. Met een relatief pad kun je verwijzen naar een bestand in een hoger of lager gelegen map zonder het volledige pad te hoeven herhalen. Als je je als gebruiker in de map ‘http://www.heemkunde-vlaanderen.be’ bevindt, dan volstaat in HTML een relatieve link naar ‘contact’ om op het volledige adres ‘http://www.heemkunde-vlaanderen.be/contact/’ terecht te komen.
- ↑ HTTrack is beschikbaar voor Windows, Mac en Linux. Een andere veelgebruikte webcrawler, die ontwikkeld werd door The Internet Archive en een aantal nationale bibliotheken, is Heritrix. Deze kan websites opslaan in het WARC-formaat.
- ↑ https://en.wikipedia.org/wiki/Java_applet#Embedding_into_a_web_page
- ↑ https://en.wikipedia.org/wiki/Adobe_Flash
Contactgegevens
Nastasia Vanderperren
meemoo
Kleindokkaai 9a
9000 Gent
E nastasia.vanderperren@meemoo.be
T +32 9 298 05 01