Publicatie:Sociale media archiveren met Webrecorder
In het kader van het project Best practices voor de archivering van sociale media in Vlaanderen en Brussel werden verschillende tools getest om socialemediaplatformen te archiveren. Deze handleiding beschrijft de tool Webrecorder voor het archiveren van sociale media.
Titel | Sociale media archiveren met Webrecorder (Voorkeurstitel) |
Locatie | |
Uitgever | |
Jaar van uitgave | 2021 |
Rechten | CC-BY-SA |
Persistent ID |
Webrecorder is een gebruiksvriendelijke desktopapplicatie voor het archiveren van websites. De software maakt een opname van een surfsessie en slaat het webarchief op in het standaardformaat WARC. Terwijl je als gebruiker interageert met een webpagina in de surfsessie, downloadt Webrecorder alle content die je tegenkomt door het netwerkverkeer en de processen in je browser op te nemen.
In de tool is ook een autopilot-functie ingebouwd waarmee enkele interacties geautomatiseerd uitgevoerd kunnen worden, zoals bv. scrollen, een Facebook-pagina bekijken of een Twitter-tijdlijn afgaan. Het is daarom een goede tool om dynamische websites op te nemen. De autopilot-functie heeft beperkte mogelijkheden. Ze kan bv. geen comments openen. Daardoor is het gebruik van de tool tijdsintensief, als je zeker wil zijn dat alles gecapteerd wordt. Je zal immers alle posts manueel moeten openen en comments moeten aanklikken.
Voordelen
- werkt op Windows en macOS zonder dat je extra software moet installeren. Linux-gebruikers dienen eerst Redis te installeren;
- kan zowel websites als socialemediaplatformen archiveren in het standaardformaat WARC, vooral voor Instagram werkt het erg goed;
- heeft een autopilot-functie die geautomatiseerd gedrag kan uitvoeren, zoals naar beneden scrollen en media afspelen;
- creëert een minimale set van metadata die in het WARC-bestand bewaard worden, zoals creator (persoon), gebruikte software, tijdstempel, URL, paginatitel, sessiegegevens en een beschrijving (optioneel).
Nadelen
- tijdsintensief als je alle content van een sociale media account wil capteren;
- de autopilot-functies werken niet altijd goed, capteren niet alles en kunnen onderbroken worden door problemen met de internetconnectie of het niet meer laden van de sociale media pagina.
Workflow
Stap 1: installeer de software
- Download Webrecorder Desktop. Kies het installatiebestand dat geschikt is voor jouw besturingssysteem (.exe voor Windows, .dmg voor macOS en .AppImage voor Linux).
- Start het installatieproces door het bestand te openen.
Stap 2: start een crawl
- Open Webrecorder en schrijf onder New Capture de URL van het sociale media account in het tekstveld . Webrecorder maakt collecties van gearchiveerde websites. Maak een nieuwe collectie aan voor de socialemediapagina die je wil archiveren.
- optioneel: onder Session settings kun je een beschrijving (metadata) toevoegen over het sociale media account dat je wil archiveren. Deze beschrijving zal bewaard worden in het WARC-bestand.
- Klik vervolgens op Preview. Met deze functie kun je inloggen in het socialemediaplatform zonder dat dit bewaard wordt in de crawl.
- Log in. Als je je niet inlogt, zal er (bij Facebook) de hele tijd een pop-up verschijnen die vraagt om een account aan te maken en die het onmogelijk maakt om de gecapteerde content te bekijken. Twitter kun je archiveren zonder je in te loggen.
- Vervolgens kan je de crawl starten door links van de adresbalk op Start Capture te klikken .
Stap 3: voer een surfsessie uit
- Nadat je op Start Capture gedrukt hebt, zal Webrecorder de pagina laden en starten met opnemen.
- Om ervoor te zorgen dat alle content bewaard wordt, moet je iedere post en foto openen en video’s afspelen. Bij Facebook worden niet automatisch alle comments getoond, dus ook deze zal je moeten uitklappen als je ze wil bewaren (controleer ook of je alle comments ziet in plaats van enkel de relevante). Tijdens het uitvoeren van deze acties zal Webrecorder steeds meer content opslaan.
- Met de autopilot-functie zal Webrecorder geautomatiseerd posts en foto’s openen en media afspelen. In Facebook kan ze momenteel enkel naar beneden scrollen en video’s gedeeltelijk afspelen. Klik rechts van de adresbalk op de knop ‘Autopilot‘ en kies in het Autopilot-menu voor ‘Start Autopilot’.
- Als je de sessie wil beëindigen, klik dan op Stop. Je ziet dan een lijst van pagina’s die gearchiveerd werden.
Stap 4: exporteer het WARC-bestand van de surfsessie
- Als je klaar bent met het opnemen van een surfsessie, kan je het WARC-bestand exporteren.
- Klik hiervoor op het Session ID onder metadata.
- Klik vervolgens op Export. Let op: Webrecorder wil het bestand opslaan als een .warc-bestand, maar het gaat om een gecomprimeerd WARC-bestand. Voeg daarom .gz toe als extensie.
- Het webarchief is opgeslagen!
Resultaat
Het webarchief kan nu geopend worden WARC-players zoals ReplayWeb.page. Ga naar https://replayweb.page en open je WARC-bestand.
Auteurs
Nastasia Vanderperren m.m.v. Rony Vissers (meemoo)