Software:Grab-site
Grabsite is een open-source tool die websites kan archiveren naar een WARC-bestand.
Python 3.7 of hoger
Beheerder | |
Specificatie | |
Documentatie | |
Persistent ID |
Grabsite is een open-source tool die websites kan archiveren naar een WARC-bestand. De tool is in staat om naast standaardwebsites ook sociale media te archiveren, zoals blogs, subreddits, mediawiki’s. De installatie en het starten van de applicatie verloopt via de terminal. De voortgang van de tool is te volgen in een dashboard (localhost) in de web-browser.
Installatie Linux:
- Voor gebruikers met beheersrechten
sudo apt-get update
sudo apt-get install --no-install-recommends git build-essential libssl-dev zlib1g-dev libbz2-dev libreadline-dev libsqlite3-dev libffi-dev libxml2-dev libxslt1-dev libre2-dev pkg-config
- Voor gebruikers zonder beheersrechten
wget https://raw.githubusercontent.com/pyenv/pyenv-installer/master/bin/pyenv-installer
chmod +x pyenv-installer
./pyenv-installer
~/.pyenv/bin/pyenv install 3.7.8
~/.pyenv/versions/3.7.8/bin/python -m venv ~/gs-venv
~/gs-venv/bin/pip install --no-binary lxml --upgrade git+https://github.com/ArchiveTeam/grab-site
Upgraden
- Een al eerder geïnstalleerde versie van Grab-site upgraden.
~/gs-venv/bin/pip install ...
- Stop het gs-server process in de terminal vervolgens met ctrl+c en start opnieuw met
gs-server
.
Gebruik
- Start de grab-site server met het volgende commando:
gs-server
Het starten van de grab-site crawl van een website gebeurt via de terminal.
Start een nieuw terminal venster.
Kopieer de URL van de website die gearchiveerd moet worden bijvoorbeeld “www.meemoo.be”.
Dan zou het commando grab-site [opties] www.meemoo.be
moeten zijn.
Het is mogelijk om verschillende URLs na elkaar in te geven. De voortgang van het crawlen/downloaden is te volgen via het dashboard van GrabSite via de lokale url: http://localhost:29000/
Opties
- De meest gebruikte opties hieronder, de volledige lijst van opties zijn hier te vinden
https://github.com/ArchiveTeam/grab-site#grab-site-options-ordered-by-importance
Opties kunnen gebruikt worden voor of na de ‘URL’.
--dir=DIR
: DIR= Absoluut pad naar aangepaste directory voor controlebestanden, tijdelijke bestanden en onvoltooide WARC's in DIR= standaard: een mapnaam op basis van de URL, datum en de eerste 8 tekens van de id, in de map waar het commando is gestart. voorbeeld van aangepast pad:--dir=/home/gebruikersnaam/grab-site/meemoo
--1
: download de url en de pagina vereisten, niet recursief--no-offsite-links
: Vermijd het volgen van links met een niveau van 1 op andere domeinen.
Grab-site downloadt altijd de paginavereisten (bijvoorbeeld inline afbeeldingen en stylesheets), zelfs als ze zich op andere domeinen bevinden. Standaard grijpt grab-site ook gelinkte pagina's met een diepte van 1 op andere domeinen. Gebruik --no-offsite-links
om dit gedrag uit te schakelen. Het gebruik van --no-offsite-links
kan ervoor zorgen dat allerlei nuttige afbeeldingen, video, audio, downloads, enz. niet worden gedownload, omdat deze vaak worden gehost op een CDN of subdomein en anders niet zouden worden opgenomen in de recursieve crawl.
--no-video
: Sla het downloaden van video's over op zowel het mime-type als de bestandsextensie. Overgeslagen video's worden vastgelegd inDIR/skipped_videos
. Kan tijdens het crawlen worden gewijzigd door het DIR / videobestand aan te passen of te verwijderen.-i / --input-file
: Laad lijst met URL's om te downloaden uit een lokaal bestand of uit een URL; zoalswget -i
. Het bestand moet een nieuwe, door regels gescheiden lijst met URL's zijn. Combineer met--1
om recursieve crawl op elke URL te voorkomen. Voorbeeld:--input-file /pad/naar/bestand
--no-sitemaps
: Plaats geen URL's van sitemap.xml in de root van de site--max-content-length=N
: Sla het downloaden over van elke response dat een Content-Lengte heeft groter is dan N. (standaard: -1, sla niets over) Overgeslagen URL’s worden vastgelegd in DIR/skipped_max_content_length. Kan tijdens het crawlen worden gewijzigd door hetDIR/max_content_length
aan te passen of te `rm`en.--delay=N
: N= Aantal milliseconden dat gewacht moet worden tussen de verzoeken aan de website.--import-ignores
: Gebruik een pad naar een bestand waar deze optie om een pad in te geven dat alle URL’s in staan die altijd moeten genegeerd worden bij het archiveren van een website.--level=N
: N= Aantal recursieve niveaus in plaats van het standaard, oneindig aantal niveaus. voorbeeld:--level=4
, om maximum 4 niveaus recursief te crawlen.--ua=STRING
: Stuur user-agent: STRING in plaats van Firefox op Windows.--finished-warc-dir=FINISHED_WARC_DIR
: Absoluut pad naar een map waarin voltooide .warc.gz- en .cdx-bestanden worden verplaatst.--igon
: Print alle URL's die worden genegeerd naar de terminal en het dashboard. Kan tijdens het crawlen worden gewijzigd door hetDIR/igoff-bestand
aan te passen of te verwijderen.