Publicatie:Pilootproject Netwerk Oorlogsbronnen

Uit Meemoo Kennisbank
Naar navigatie springen Naar zoeken springen


Samenvatting

Dit pilootproject maakt deel uit van het project Operationalisering van beeldherkenning in de registratiepraktijk.


Referentie
Titel Pilootproject Netwerk Oorlogsbronnen (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2020
Rechten CC-BY-SA
Persistent ID


Projectbeschrijving

Problematiek

Er is een grote vormverscheidenheid van standaarddocumenten en formulieren tijdens de Tweede Wereldoorlog. Elke partij, stad, dienst, etc. had zijn eigen standaard en dit zorgt voor moeilijkheden tijdens het ontsluiten van oorlogsbronnen. In dit pilootproject wordt enkel gefocust op de documenten van het concentratiekamp Vught die via de Arolsen Archives toegankelijk zijn. Alleen al voor deze bron is er een grote verscheidenheid aan standaarddocumenten.

Mogelijke oplossing door VRS

Een classficatie maken van de verschillende vormen van standaarddocumenten en formulieren. Op deze manier wordt een verdere workflow omtrent de inhoud via OCR en crowdsourcing eenvoudiger gemaakt.

Methodologie

Samenvatting
Collectie Arolsen archives: archief van gedeporteerden WOII
Doel Verschillende types formulieren classificeren
Methode
  1. Webscraping beeldarchief
  2. Model getrained met Clarifai GUI,
  3. Classificatie met Clarifai API,
  4. Verwerkt tot CSV + import
Tools
  1. Octoparse (webscraping)
  2. Clarifai (training & classification)
  3. Knime (data processing en workflow management)
  4. MongoDB (data storage)
Resultaat Classificatie van 125.474 formulieren in 4 types, >99% correct

Testsets verzamelen

De te analyseren beelden bevonden zich op een externe website.

  1. Aangezien een export of download niet mogelijk was, werden de data verkregen door webscraping met behulp van Octoparse.
  2. De resultaten van de scraping werden omgezet naar een CSV-bestand, met daarin metadata en een URL die naar de beelden in het online archief verwijst.

Optioneel trainen van VRS

In totaal bevatte de collectie 3 types formulieren, waarvan telkens voor en achterzijde was gescand. Er moesten dus 6 types worden onderscheiden: (1) hinweiskarte (2) hinweiskarte_achter (3) index (4) index_achter (5) omslag (6) omslag_achter

  1. Van elk type formulier werden een zestal voorbeelden verzameld.
  2. Er werd een model getraind via de Glossarium:Graphical User Interface van de Clarifai Visual recognition Service. Omdat er met een beperkt aantal types formulier kon worden gewerkt, was het efficiënter om de training via de GUI uit te voeren.

Technische uitvoering

  1. De URL's die naar de beelden van het Arolsen Archive verwijzen werden als request naar de Clarifai API gestuurd. De response bevatte voor elk type formulier een score tussen 0 en 1.
  2. Voor elke request werd de het type met de hoogste score geselecteerd. De illustratie geeft een visualisering van de scores (rechtsonder) via de GUI.
Screenshot typering formulieren Arolsen Archives
Screenshot typering formulieren Arolsen Archives (scores rechts onder)


Evaluatie

  1. In de meeste gevallen (82%) lag de maximale score boven de 0.90.
  2. Tags met lagere scores (82>...>10%) waren steeds correct, wanneer het geen (blanco) achterzijde van formulieren betrof. De lagere scores werden meestal veroorzaakt door het gebrekkig contrast in de opname. Bij scans van achterzijden was er een grotere, maar hier irrelevante foutenmarge.
  3. In een zeer beperkt aantal gevallen (132) lag de score erg laag (<10%). Het betrof in dat geval opnieuw achterzijden en formulieren die niet aan één van de modellen beantwoordden of (in een zeer uitzonderlijk geval) een afwijkende kleur hadden.

Import in registratiesysteem

  1. De resultaten werden omgezet naar een CSV bestand.
  2. De applicatiebeheerder van het NOB importeerde het bestand in het eigen beheerssysteem.

Bevindingen

Cijfers

  1. 125.533 scans van formulieren werden succesvol geclassificeerd.
  2. De foutmarge lag onder 0.01 %

Bevindingen

Voor het Netwerk Oorlogsbronnen was het resultaat erg zinvol. In de descriptieve metadata die zij hadden gekregen van de Arolsen Archives kwamen de URL's voor de online afbeeldingen niet overeen met de URL's in de metadata. Lang hadden zij geen juiste URL naar de beelden van de indexkaarten. Deze kaarten bevatten informatie over de gevangenen van kamp Vught. De overige documenten zijn een omslag/enveloppe, een archief verwijskaart en achterkanten van kaarten.

Dankzij dit project heeft NOB nu eindelijk 15.662 verwijzingen naar indexkaarten boven water kunnen halen. Ze gebruiken het als Illustratiemateriaal op de website Oorlogslevens en willen via crowdsourcing de kaarten laten transcriberen (voor zover de scankwaliteit van het beeldmateriaal dit toelaat).

Overigens kan wel de vraag gesteld worden waarom er zoveel moeite wordt gedaan voor deze slechte kwaliteit kaarten: de kaarten zijn scans van microficheopnames. De originele kaarten liggen in een depot bij een archief, maar worden niet gescand omdat de Nederlandse vertaling van de GDPR-wetgeving (privacy) in de weg zit. Arolsen Archives mag de kaarten wel op hun website publiceren omdat zij niet aan de Nederlandse wetgeving, maar aan Internationale wetgeving gebonden zijn. Op Europees niveau is er een Holocaust clausule in de GDPR die publicatie van data over de Holocaust toestaat. Deze wetgeving is helaas nog niet in Nederland geratificeerd. Daarom doet het Netwerk Oorlogsbronnen zoveel moeite voor deze kaarten.

Ze hebben een nieuwe metadataset uit Arolsen ontvangen en zullen deze in de komende maanden volgens dezelfde procedure als in dit pilootproject de gegevens gaan binnenhalen en koppelen. Ze hopen vooral dat ze in de toekomst de procedure volledig zelfstandig kunnen reproduceren.

Alternatieve use cases

Voor elke content partner werd individueel gepeild naar de gebruikersbehoeften. Uit de problematieken die naar boven kwamen werden steeds twee à drie mogelijke use cases geformuleerd waarbij VRS een oplossing zou kunnen bieden. Na onderzoek door Datable werd er gekozen voor één specifieke use case per partner, rekening houdende met factoren zoals haalbaarheid en diversiteit. Hieronder vindt u de andere mogelijke use case die tijdens de voorbereiding werd onderzocht.

Vormherkenning van objecten in de periferie

Problematiek

Heel wat foto’s zijn ontsloten op basis van de essentiële elementen die op de foto’s staan. Bijvoorbeeld ‘Foto van prins Bernard tijdens de bevrijding van Heerlen’. Er staat echter niet bij in wat voor voertuig prins Bernard zat, bijvoorbeeld een jeep. Het idee is dat deze foto daarna ook zou opduiken bij zoekopdrachten voor ‘jeep’.

Mogelijke oplossing door VRS

Het taggen van de objecten in de periferie op de foto. Door dit te doen wordt de doorzoekbaarheid van de collectie enorm uitgebreid.