Publicatie:Een Twitter-account archiveren met pywb
In het kader van het project Best practices voor de archivering van sociale media in Vlaanderen en Brussel werden verschillende tools getest om socialemediaplatformen te archiveren. Deze handleiding beschrijft de tool pywb voor het archiveren van Twitter.
Titel | Twitter archiveren met pywb (Voorkeurstitel) |
Locatie | |
Uitgever | |
Jaar van uitgave | 2021 |
Rechten | CC-BY-SA |
Persistent ID |
Pywb is een webarchiveringstoolkit voor het afspelen van webarchieven. Het werd eind 2020 door IIPC (International Internet Preservation Coalition) verkozen als de beste software om webarchieven af te spelen.[1] Met pywb kan je rechtstreeks in de browser webarchieven afspelen en creëren. Het is een goede tool om dynamische websites, die je kan bekijken zonder in te loggen, te archiveren. Twitter is een voorbeeld van zo’n dynamische website waarbij je publieke accounts kan bekijken zonder dat je over een account moet beschikken.
Vereisten
- Python
- geen schrik van de command line
Voordelen
- draait op Windows, macOs en Linux
- archiveert sociale media in het standaardformaat WARC
- archivering verloopt rechtstreeks in de browser
- zelfde software voor het maken en afspelen van webarchieven
- uitgebreide documentatie
Nadelen
- zowel de installatie van de software als de creatie van crawls verlopen via de command line
- niet geautomatiseerd
- kan geen sociale media capteren waarvoor je je moet inloggen
- creëert weinig metadata, enkel URL en tijdstempel van captatie.
Workflow
Stap 1: installeer de software
Pywb installeer je met pip, de Python package manager. Zorg daarom dat Python reeds op je computer geïnstalleerd is.
- open een terminalvenster
- gebruik het commando
pip install pywb
om pywb te installeren
Pywb is nu geïnstalleerd.
Stap 2: maak een collectie
Net zoals Software:Browsertrix-crawler en Webrecorder werkt pywb met collecties.
- maak een map voor je pywb webarchieven met een naam naar keuze. Doorheen deze handleidingen zullen we ze pywb-map noemen.
- download dit configuratiebestand en plaats het in de pywb-map. Raadpleeg de pywb-documentatie als je pywb nog meer wil aanpassen.
- open een terminalvenster en navigeer naar de pywb-map met het commando
cd pad/naar/pywb-map
Verander pad/naar/pywb-map in het juiste pad voor de pywb-map. Als de map pywb-map op je Desktop staat, dan is het commando:- voor Windows:
cd c:\Users\(username)\Desktop\pywb-map
(vervang (username) door je gebruikersnaam) - voor macOS:
cd ~/Desktop/pywb-map
- voor Windows:
- geef een naam naar keuze aan je collectie. In deze handleidingen noemen we de collectie mijn-archief. Gebruik hiervoor het commando
wb-manager init mijn-archief
.
- Hou het terminalvenster open en ga naar de volgende stap
Stap 3: start pywb in opnamemodus
Vervolgens moet pywb opgestart worden in opnamemodus en kunnen we starten met browsen doorheen het socialemediaplatform.
- Keer terug naar het terminalvenster dat nog open staat van de vorige stap
- Start pywb op met het commando
wayback --record --live --enable-auto-fetch
. Dit commando maakt het mogelijk om live websites op te nemen.--enable-auto-fetch
zorgt ervoor dat pywb automatisch extra content downloadt van responsieve websites, zoals de individuele posts op de Twitter timeline. Ingebedde media van tweets worden automatisch gedownload, maar als je in het webarchief afbeeldingen wil bekijken in volledige grootte door op een afbeelding in een tweet te klikken, moet je ze bij het archiveren wel nog zelf openen; deze worden niet automatisch gedownload omdat Twitter ze een andere domeinnaam geeft.
- Als alles goed verlopen is, zie je in de terminal de tekst
[INFO]: Starting Gevent Server on 8080
verschijnen
- Laat het terminalvenster open staan
- Ga naar http://localhost:8080/mijn-archief/record/https://twitter.com/twitter-user. Wijzig mijn-archief in de naam die je in de vorige stap aan je collectie gegeven hebt en twitter-user in de naam van het account.
- Scroll doorheen de website (en open eventueel alle afbeeldingen) tot je alles bekeken hebt dat je wil archiveren. Tijdens het interageren met de webpagina zie je in de terminal tekst verschijnen. Dit wijst erop dat pywb de webpagina aan het archiveren is.
- Als je klaar bent met archiveren, kan je de browser of het tabblad sluiten. Ook het terminalvenster kan je sluiten; of je kan de opdracht beëindigen door gelijktijdig ctrl en c in te drukken.
- Bekijk je pywb-map. In de map collections/mijn-archief/archive zou je nu een warc.gz-bestand moeten zien.
Resultaat
Je hebt nu een webarchief in het WARC-formaat dat je kan bekijken.
- Open weer een terminalvenster en navigeer terug naar de pywb-map:
cd pad/naar/pywb-map
- Start pywb op via het commando
wayback -a
. De-a
optie zorgt ervoor dat er een index gecreëerd wordt van het WARC-bestanden in de collectie. Pywb gebruikt deze index om snel doorheen het WARC-bestand te kunnen zoeken.
- Er verschijnen een aantal berichten in de terminal. Als het bericht
[INFO]: ...Done
ziet, dan is je webarchief klaar om af te spelen.
- Ga naar http://localhost:8080/mijn-archief (vervang mijn-archief door de naam die je aan de collectie gegeven hebt).
- Je zal een zoekvenster te zien krijgen. Typ de URL in die je gearchiveerd hebt.
- Klik vervolgens op Search. Je zal een lijst zien met het aantal crawls dat je gedaan hebt voor die URL en de datum van die crawls. Normaal zou je één capture moeten zien.
- Klik op de crawl en scroll doorheen de gearchiveerde webpagina.