Webpagina's inventariseren
betwer webpublicaties ipv websites
doel
Alle webpublicaties van een bepaalde organisatie of persoon, plaats of onderwerp verzamelen binnen een bepaalde periode.
Centrale vraag die de inventaris moet beantwoorden: wat heeft iemand over iets op een bepaald moment op het web gezet? Ongeacht of dit via een website, blog, sociaal netwerk is. Het zoekresultaat moet een reeks links naar webpublicaties zijn. Als die webpublicaties niet meer online staan, is het zaak dat uit een digital repository worden gevist. Hoe die publicaties in een repository bewaren is onderwerp van de andere richtlijn.
- ontwikkel een goeie zoekstrategie > welke elementen moeten in de zoekstrategie zitten
- documenteer de zoekstrategie bij de resultaten > in welk formaat moet het archief en de metadat bewaard worden
- beschrijving van het webarchief > standaarden voor metadata over webresources
- hoe inventariseer je dynamische content van een webpublicatie.
- maak je de inventaris van je webpublicaties doorzoekbaar?
- hoe inventariseer je de ontwikkeling in de tijd van een publicatie?
zoekstrategieen:
- depth/breadt first-popularity ranks-topical crawling
zie liwa-arcomem apache nutch heritrix UK web archive portugeuese web archive padicat
guessing linkes
extract paramaets from the program code
execute of javascript> simultae user activities
crawl strategies 1. depth-first (sequence of dives in to the depth of the page hierarchy) 2. breadth first (level by level lower in the hierarchy 3. select pages by popularity (obv pagerank 4. cntent based selection
topical crawling
focussed on events and rarely around entities based on the intention of the researcher pagen rank and smantics for prioritizin pages
resultaat: collectie pagina's van een domein over een bepaald onderwerp