Publicatie:Hoe archiveer je websites? (versie: Bladwijzer)

Uit Meemoo Kennisbank
Naar navigatie springen Naar zoeken springen


Samenvatting

De meeste organisaties hebben al een of meer websites versleten. Bij de overgang naar een nieuwe website stellen organisaties zich de vraag hoe ze de oude kunnen archiveren. Vaak bevat zo’n oude website interessante gegevens die niet meer relevant zijn voor de nieuwe, maar die wel een historische waarde hebben voor de organisatie. Wat is dan de eenvoudigste manier om die informatie te archiveren?

Nog niet zo heel lang geleden bestonden websites enkel uit statische HTML-pagina’s . Dit zijn eenvoudige tekstpagina’s met een opmaak die de webbrowser kan omvormen tot een webpagina. Om deze websites te archiveren, volstond het om het mapje met de bestanden naar je eigen computer te kopiëren. Recente websites maken echter gebruik van een Content Management Systeem (CMS). Dit is een databank waarin de website-informatie wordt beheerd en waarin webpagina’s samengesteld worden op het ogenblik dat ze geopend worden. Dit maakt de website dynamisch, maar ook veel moeilijker om te archiveren.

In dit artikel bespreken we hoe zo’n (dynamische) website op een eenvoudige manier digitaal gearchiveerd kan worden. De website zal terug statisch gemaakt worden en offline opgeslagen worden in een vorm waarin ze op lange termijn bewaard kan worden. Net zoals bij e-mails is het digitaal zijn bij websites een essentiële eigenschap die bewaard moet worden. Zonder digitale bewaring zou je de look & feel en de ervaring om door de website te surfen missen.


Referentie
Titel Hoe archiveer je websites? (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2016
Rechten CC-BY-SA
Persistent ID


Auteur

Nastasia Vanderperren (meemoo, Vlaams instituut voor het archief)

Te ondernemen stappen

Analyseer je website

Maak eerst een analyse van je website. De keuze voor een archiveringsmethode is afhankelijk van het type, de inhoud en de elementen van je website.

Er bestaan grofweg drie types van websites: statische websites met vaste inhoud, dynamische websites waarbij de inhoud gehaald wordt uit het deep web[1] en een tussenvorm van die twee. Statische websites bestaan uit een aantal aan elkaar gekoppelde pagina’s en zijn meestal in HTML[2] opgemaakt. Er kunnen zich links met afbeeldingen of links naar andere websites in bevinden. Alle bestanden zijn in een hiërarchische mappenstructuur op de webserver gestockeerd. Een dynamische website is een website die samengesteld wordt op het moment dat ze geopend wordt. Hierbij hebben de pagina’s zelf geen inhoud, maar worden ze opgevuld met inhoud die zich in een achterliggende databank bevindt, zoals bij een CMS. Door middel van cookies wordt specifieke gebruikersinformatie op de computer van de gebruiker bewaard waarmee de browser de inhoud van een webpagina kan aanpassen aan de persoonlijke voorkeuren van de gebruiker. De meeste websites zijn een tussenvorm van statisch en dynamisch.[3]

Bekijk daarnaast uit welke inhoud en elementen je website bestaat. Bevat je website veel links naar andere websites? Maakt je website gebruik van externe diensten, zoals kaarten van Google Maps, filmpjes op YouTube of foto’s die op een online fotoservice staan? Ook geanimeerde of interactieve beelden en knoppen zorgen voor een extra uitdaging bij het archiveren. Deze elementen maken het archiveren van websites complex en zijn vaak moeilijk te bewaren. Bepaalde functionaliteiten kun je verliezen, zoals het afspelen van Flash-animaties[4] of elementen waarvoor plug-ins[5] geïnstalleerd moeten worden. Interactieve elementen kunnen in gearchiveerde websites niet meer werken, net zoals bestanden die van een andere website opgehaald worden.

Leg doelstellingen vast

Daarnaast is het belangrijk om een aantal duidelijke doelstellingen te formuleren alvorens een archiveringsmethode te kiezen. Het kiezen van een archiveringsmethode houdt namelijk een aantal keuzes in. Een eerste keuze betreft wat van de website vastgelegd moet worden bij archivering: de volledige website, inclusief de externe webpagina’s waarnaar je website verwijst, of enkel het domein van je eigen website? Een tweede keuze betreft de frequentie waarmee de onderdelen gearchiveerd moeten worden.[3]

Het vastleggen van webpagina’s houdt een aantal uitdagingen in die voortvloeien uit hun speciale karakter. Websites hebben een erg vluchtig karakter omdat ze regelmatig geactualiseerd en aangepast worden. Bovendien is de presentatie van een webpagina op het scherm afhankelijk van de interactie met de gebruiker (o.a. webbrowser, persoonlijke instellingen en voorkeuren). Webpagina’s zijn tevens sterk met elkaar verweven: ze zijn aan elkaar gekoppeld, worden soms op meerdere servers gehost of halen informatie uit externe services of websites op.[3]

Je zal dus moeten bepalen wanneer je je website gaat archiveren en hoe je de te archiveren website afbakent. Ga je enkel de website capteren als hij offline gehaald wordt, jaarlijks, of bij iedere update? Wordt enkel de website van je eigen domein of ook alle pagina’s waarnaar verwezen wordt gearchiveerd? Bij het archiveren van websites zal je moeten accepteren dat er steeds leemten zullen zijn.

Bewaar de essentiële kenmerken van je website

Door de vluchtigheid van het medium en de persoonlijke ervaring bij webpagina’s is authenticiteit een moeilijk begrip bij het archiveren van websites. Toch kunnen een aantal essentiële eigenschappen gedefinieerd worden[3]:

  • Context: dit zijn gegevens die aanduiden wat de relatie van de website tot de archiefvormer is. Je kan dit o.m. bewaren door beschrijvende metadata over je website vast te leggen.
  • De inhoud waaruit je website bestaat: tekst, foto’s, video’s, kaarten, etc. Sommige elementen, zoals informatie die van externe diensten opgehaald worden (bv. YouTube, Google Maps en Flickr), zijn moeilijk te archiveren. Documenteer daarom de externe diensten die je website gebruikt.
  • Structuur: dit geeft de relatie weer tussen de website en zijn onderdelen. De meeste websites hebben een sitemap[6] die de structuur van de website toont. Je kan deze eigenschap bewaren door de originele structuur van je website (d.i. de originele structuur van de webpagina’s van je website op de webserver) te bewaren en de relaties tussen de verschillende webpagina’s te behouden.
  • Look & feel: Bij een website is niet enkel de inhoud, structuur en context belangrijk, maar ook de look & feel is een essentieel component dat bewaard moet worden. Documenteer daarom steeds de technische omgeving waarin je website gemaakt is: bv. de CMS-software die je gebruikt, de plug-ins[5] die je website nodig heeft om bepaalde componenten weer te geven en de serverconfiguratie. Registreer ook de periode waarin je website online was. Dit geeft een beeld van de gebruikte HTML-versie[2], de software en de versies van browsers waarin de website getoond kan worden. Op basis van deze informatie kan een reconstructie van de website gemaakt worden.
  • Websites kunnen ook specifiek gedrag en functionaliteiten hebben, zoals animaties, interactieve elementen en hyperlinks. Daarvoor registreer je ook de technische omgeving van je website. Functionaliteiten kun je verliezen bij het kiezen van een bepaalde archiveringsmethode.

Essentiële kenmerken worden bewaard zodat een getrouwe reconstructie van de website mogelijk is en de website binnen zijn context gearchiveerd wordt. Op de website van eDAVID kan je een document vinden met een lijst van alle metadata die bewaard dienen te worden. Sla dit document op als een gestructureerd tekstbestand (bv. als XML-, CSV- of Excel-bestand) en bewaar dit samen met de gearchiveerde website in het digitale archief. Hou ook alle bijkomende documentatie over je website bij. Dit kan van pas komen indien emulatie in de toekomst nodig zou zijn.

Door te documenteren welke plug-ins de website gebruikt kun je de website met bv. emulatie reconstrueren en vermijd je dat bepaalde elementen niet meer geopend kunnen worden.

Archiveer een website steeds alvorens hem offline te halen en van de webserver te verwijderen. Dit geeft je de mogelijkheid om na het archiveren kwaliteitscontrole uit te voeren en te controleren of alle essentiële eigenschappen bewaard zijn.

Bewaar de website duurzaam

Voor de preservering van websites gelden de algemene regels met betrekking tot duurzame bewaring. Zorg steeds dat je goede back-upprocedures gebruikt en dat je van je bestanden verschillende back-ups hebt die op verschillende (geografische) locaties bewaard worden. Bewaak de integriteit van je gearchiveerde website door checksums te gebruiken en de bestanden periodiek te controleren.

Een uitdaging voor de langetermijnbewaring van websites zijn de grote hoeveelheid aan bestandsformaten die op websites geplaatst kunnen worden. Het is complex om deze te migreren naar duurzame bestandsformaten omdat de relatie tussen webpagina en bestand op deze manier verbroken kan worden. Onderzoek wijst echter uit dat websites hoofdzakelijk gestandaardiseerde formaten gebruiken, zoals HTML[2], JPEG, MP3, etc., waardoor dit probleem te relativeren valt. Een oplossing voor deze uitdaging is om websites te archiveren in het WARC-formaat. Dit is een open standaardformaat om verschillende digitale bronnen met metadata in één archiefbestand op te slaan. Het archiveren van websites in het WARC-formaat is echter complex en wordt in dit artikel niet behandeld.[7]

Archiveringsmethodes

In dit deel worden drie archiveringsmethodes besproken:

  • je website laten archiveren door een organisatie die dit als missie heeft;
  • zelf een offline kopie maken;
  • zelf een video van een surfsessie maken.

Elke methode heeft haar gebreken. Je kunt daarom een aantal methodes combineren om ieder aspect van je website te bewaren.

Laat je website archiveren door een organisatie die dit als missie heeft

The Internet Archive heeft als doel om alle kennis van het web te verzamelen en te bewaren. De Wayback Machine van The Internet Archive is de grootste externe (gratis) webarchiveringsdienst. Op deze manier werden al meer dan 40 miljard pagina’s gearchiveerd. De meeste websites worden gearchiveerd zonder dit te melden. De Wayback Machine maakt op meerdere tijdstippen een momentopname van websites. Neem dus zeker eens een kijkje om te zien of er al opnames van jouw website gearchiveerd werden. Je kunt je website invoeren en de opdracht geven om die te archiveren als dit nog niet gebeurd is.

Het voordeel aan deze methode is dat je website gearchiveerd wordt zonder dat je er zelf tijd of kennis voor nodig hebt. Een nadeel is dat je afhankelijk bent van een externe dienst en zelf geen controle hebt over wanneer de momentopnames gearchiveerd worden. Ook moet je steeds naar de Wayback Machine gaan om je gearchiveerde website te raadplegen en heb je de gearchiveerde website niet in eigen bezit.

Controleer of je website al gearchiveerd werd

  • Ga naar de Wayback Machine
  • Typ de URL van je website in de tekstbalk en klik op ‘browse history’.
Wayback 1.png
  • Je kunt zien dat de website van PACKED vzw al 93 keer werd gecapteerd tussen 15 februari 2004 en 9 oktober 2016.
Wayback 2.png
  • Door op een datum te klikken kom je op een oude versie van de gearchiveerde website. Dit is de website van PACKED vzw op 15 februari 2004.
Wayback 3.png

Meld je website aan in Wayback Machine

  • Typ je website in de tekstbalk en klik op ‘browse history’.
  • Je krijgt een bericht dat je website nog niet gearchiveerd werd. Klik op ‘Save this URL in the wayback machine’.
Wayback 4.png
  • Je website wordt gearchiveerd.
Wayback 5.png
  • Je website is gearchiveerd. Je krijgt een URL naar de gearchiveerde versie van je website.
Wayback 6.png
Wayback 7.png

Maak een offline kopie

Dit is de meest toegepaste vorm van websitearchivering. Een crawler of offline browser maakt een snapshot van je website en slaat alle bestanden op als een HTML-bestand[2]. Dit is mogelijk doordat de crawler zich als een browser voordoet die iedere pagina van de website bezoekt. In een browser wordt iedere webpagina als een HTML-pagina weergegeven, en daarom wordt iedere pagina als een HTML-bestand opgeslagen. Absolute padaanduidingen worden hierbij omgezet naar relatieve padaanduidingen[8], zodat de website offline geopend kan worden zoals de oorspronkelijke website.

Deze methode kun je toepassen wanneer je alle pagina’s en bestanden waaruit je website bestaat wil bewaren. Het houdt de oorspronkelijke structuur van je website relatief intact en maakt het mogelijk om je website offline te openen en erin te navigeren zoals bij de oorspronkelijke website. Er bestaan eenvoudige tools om een snapshot van je website te maken.

Hou er rekening mee dat crawlers beperkingen hebben. Dynamische webpagina’s waarbij de inhoud gevormd wordt op basis van gegevens die een gebruiker invoert, kunnen niet gearchiveerd worden, net zoals informatie die via een paswoord beveiligd is, bepaalde interactieve elementen en informatie van externe diensten. Ook websites met animaties die een plug-in vereisen om af te spelen, zoals Flash-toepassingen, zullen niet goed gearchiveerd worden.[7]

Een eenvoudige crawler met grafische gebruikersinterface is HTTrack.[9]

  • Installeer HTTrack
  • Geef een naam aan je webarchief en kies waar je de gearchiveerde website wil opslaan. Klik vervolgens op ‘next’.
Httrack1.gif
  • Selecteer een actie. Kies voor ‘download web site(s)’.
Httrack2.gif
  • Vul de URL van je website in. Je kunt meerdere URL’s downloaden. Kies in dat geval voor ‘add URL’ en vul de extra URL in. Klik vervolgens op ‘next’.
Httrack3.gif
  • Klik op ‘finish’
  • De crawler is bezig met het downloaden van je website. Laat het venster open zolang de crawler bezig is.
Httrack5.gif
  • De crawler is klaar.
Httrack6.gif
Httrack7.png

Maak een video van een surfsessie

Wanneer je een beeld van een website wil archiveren, maar niet alle pagina’s en bestanden wil bewaren, kun je een video maken van een surfsessie op je website. Je kunt dit ook als aanvullende methode gebruiken als de website veel animaties of interactieve elementen bevat of wanneer het gebruik maakt van externe diensten die moeilijk te capteren zijn.

In dit voorbeeld gebruiken we QuickTime . Als je in een zoekmachine ‘screencast’ opzoekt, vind je andere software die je kunt gebruiken.

  • Ga naar de website die je wil archiveren.
  • Kies in het QuickTime-menu voor ‘Nieuwe schermopname’.
Screen1.png
  • Een venster verschijnt. Klik op de rode opnameknop om de opname te starten.
Screen2.png
  • Klik om het volledige scherm op te nemen, of sleep het venster over het scherm om slechts een deel van je computerscherm op te nemen.
Screen3.png
  • Het venster werd rond de browser gesleept. Klik op ‘start opname’.
Screen4.png
  • De opname is bezig. Surf doorheen de website. Als je klaar bent, klik je op de ‘stop’-knop die in de menubalk staat.
  • Je kunt nu de video bekijken. Klik op ‘Bewaar’ om de video op te slaan.
Screen5.png
Screen6 web.png

Verwijzingen

  1. Het deep web is het deel van het web dat niet toegankelijk is voor zoekmachines, zoals databanken die afgeschermd worden door middel van wachtwoorden. De databank achter een CMS-systeem is een onderdeel van het deep web. Zie: https://nl.wikipedia.org/wiki/Deep_web.
  2. 2,0 2,1 2,2 2,3 Citefout: Onjuist label <ref>; er is geen tekst opgegeven voor referenties met de naam html
  3. 3,0 3,1 3,2 3,3 Citefout: Onjuist label <ref>; er is geen tekst opgegeven voor referenties met de naam boudrez
  4. Flash is software van Adobe en wordt o.m. gebruikt om animaties, webvideo’s en webapplicaties te maken en websites aan te kleden. Je hebt een Flash Player plug-in nodig op je webbrowser om deze bestanden af te spelen. Zie: https://nl.wikipedia.org/wiki/Adobe_Flash.
  5. 5,0 5,1 Een plug-in of invoegtoepassing is een uitbreiding van een computerprogramma. In een webbrowser wordt het gebruikt om speciale informatie op een website te laten zien, zoals flash-animaties.
  6. Een sitemap, soms siteplan, is een pagina of document waarin links naar alle pagina's van een website staan. Dit is een handig hulpmiddel voor bezoekers en zoekmachines om bepaalde pagina's te vinden op een site. Zie: https://nl.wikipedia.org/wiki/Sitemap.
  7. 7,0 7,1 M. Pennock, Web-archiving. Zie: http://www.dpconline.org/component/docman/doc_download/865-dpctw13-01pdf.
  8. Een absoluut pad is een volwaardige verwijzing naar een bestandslocatie en is het volledige adres van de locatie van een bestand, zoals ‘http://www.heemkunde-vlaanderen.be/contact/’. Een relatief pad gaat uit van de locatie waar een gebruiker of applicatie zich bevindt. Met een relatief pad kun je verwijzen naar een bestand in een hoger of lager gelegen map zonder het volledige pad te hoeven herhalen. Als je je als gebruiker in de map ‘http://www.heemkunde-vlaanderen.be’ bevindt, dan volstaat in HTML een relatieve link naar ‘contact’ om op het volledige adres ‘http://www.heemkunde-vlaanderen.be/contact/’ terecht te komen.
  9. HTTrack is beschikbaar voor Windows, Mac en Linux. Een andere veelgebruikte webcrawler, die ontwikkeld werd door The Internet Archive en een aantal nationale bibliotheken, is Heritrix. Deze kan websites opslaan in het WARC-formaat.