Software:Brozzler
Brozzler is een gedistribueerde webcrawler die gebruik maakt van een echte browser (Chrome of Chromium) om webpagin's op te halen. Het is daarom in staat om dynamische websites te capteren. Het bevat scripts met menselijk gedrag om interacties te capteren (bv. naar beneden scrolling, media afspelen, etc.). Crawls worden opgestart via de command line; de voortgang kan gevolgd worden via een webinterface. Webarchieven worden opgeslagen in het WARC-formaat.
- Python 3.5 of hoger
- RethinkDB
- Chromium of Google Chrome versie 64 en hoger
Beheerder | |
Specificatie | |
Documentatie | |
Persistent ID |
Installatie
Met pip3 install brozzler[easy]
installeer je de crawler
Met pip3 install brozzler[dasboard]
installeer je het dashboard om je crawls te volgen en te bekijken.
Getting started
Om brozzler op te starten moet je commando's ingeven in de command line interface.
De eenvoudigste manier om een website te capteren:
- voeg een te archiveren website toe via
brozzler-new-site http://example.com/
(vervang http://example.com door de website die je wil capteren) - start de crawl via
brozzler-easy
Vervolgens zal een browser openen en kan je geautomatiseerd gedrag zien in de browser zoals navigeren van pagina tot pagina, afbeeldingen openen en video's afspelen. Je kan de gearchiveerde webpagina's onmiddellijk openen via http://localhost:8880/brozzler/
Het is ook mogelijk om een website te laten crawlen via een job. Dit is een configuratiebestand waarmee je extra vereisten en informatie kan toevoegen aan de crawl, bv. metadata die mee ingebed moet worden, een gebruikersnaam en wachtwoord waarmee de crawler kan inloggen in de website, etc. Meer informatie over jobs kan je vinden op de Brozzler Job Configuration documentatie.
Brozzler Dashboard
Om de status van de crawl te volgen, kan je het dashboard gebruiken. Start het dashboard door in de command line het commando brozzler-dashboard
in te geven. Vanaf dan zal het dashboard beschikbaar zijn op http://localhost:8000.