Publicatie:Pilootproject Netwerk Oorlogsbronnen
Dit pilootproject maakt deel uit van het project Operationalisering van beeldherkenning in de registratiepraktijk.
Titel | Pilootproject Netwerk Oorlogsbronnen (Voorkeurstitel) |
Locatie | |
Uitgever | |
Jaar van uitgave | 2020 |
Rechten | CC-BY-SA |
Persistent ID |
Projectbeschrijving
Problematiek
Er is een grote vormverscheidenheid van standaarddocumenten en formulieren tijdens de Tweede Wereldoorlog. Elke partij, stad, dienst, etc. had zijn eigen standaard en dit zorgt voor moeilijkheden tijdens het ontsluiten van oorlogsbronnen. In dit pilootproject wordt enkel gefocust op de documenten van het concentratiekamp Vught die via de Arolsen Archives toegankelijk zijn. Alleen al voor deze bron is er een grote verscheidenheid aan standaarddocumenten.
Mogelijke oplossing door VRS
Een classficatie maken van de verschillende vormen van standaarddocumenten en formulieren. Op deze manier wordt een verdere workflow omtrent de inhoud via OCR en crowdsourcing eenvoudiger gemaakt.
Methodologie
Collectie | Arolsen archives: archief van gedeporteerden WOII |
Doel | Verschillende types formulieren classificeren |
Methode |
|
Tools |
|
Resultaat | Classificatie van 125.474 formulieren in 4 types, >99% correct |
Testsets verzamelen
De te analyseren beelden bevonden zich op een externe website.
- Aangezien een export of download niet mogelijk was, werden de data verkregen door webscraping met behulp van Octoparse.
- De resultaten van de scraping werden omgezet naar een CSV-bestand, met daarin metadata en een URL die naar de beelden in het online archief verwijst.
Optioneel trainen van VRS
In totaal bevatte de collectie 3 types formulieren, waarvan telkens voor en achterzijde was gescand. Er moesten dus 6 types worden onderscheiden: (1) hinweiskarte (2) hinweiskarte_achter (3) index (4) index_achter (5) omslag (6) omslag_achter
- Van elk type formulier werden een zestal voorbeelden verzameld.
- Er werd een model getraind via de Glossarium:Graphical User Interface van de Clarifai Visual recognition Service. Omdat er met een beperkt aantal types formulier kon worden gewerkt, was het efficiënter om de training via de GUI uit te voeren.
Technische uitvoering
- De URL's die naar de beelden van het Arolsen Archive verwijzen werden als request naar de Clarifai API gestuurd. De response bevatte voor elk type formulier een score tussen 0 en 1.
- Voor elke request werd de het type met de hoogste score geselecteerd. De illustratie geeft een visualisering van de scores (rechtsonder) via de GUI.
Evaluatie
- In de meeste gevallen (82%) lag de maximale score boven de 0.90.
- Tags met lagere scores (82>...>10%) waren steeds correct, wanneer het geen (blanco) achterzijde van formulieren betrof. De lagere scores werden meestal veroorzaakt door het gebrekkig contrast in de opname. Bij scans van achterzijden was er een grotere, maar hier irrelevante foutenmarge.
- In een zeer beperkt aantal gevallen (132) lag de score erg laag (<10%). Het betrof in dat geval opnieuw achterzijden en formulieren die niet aan één van de modellen beantwoordden of (in een zeer uitzonderlijk geval) een afwijkende kleur hadden.
Import in registratiesysteem
- De resultaten werden omgezet naar een CSV bestand.
- De applicatiebeheerder van het NOB importeerde het bestand in het eigen beheerssysteem.
Bevindingen
Cijfers
- 125.533 scans van formulieren werden succesvol geclassificeerd.
- De foutmarge lag onder 0.01 %
Bevindingen
Voor het Netwerk Oorlogsbronnen was het resultaat erg zinvol. In de descriptieve metadata die zij hadden gekregen van de Arolsen Archives kwamen de URL's voor de online afbeeldingen niet overeen met de URL's in de metadata. Lang hadden zij geen juiste URL naar de beelden van de indexkaarten. Deze kaarten bevatten informatie over de gevangenen van kamp Vught. De overige documenten zijn een omslag/enveloppe, een archief verwijskaart en achterkanten van kaarten.
Dankzij dit project heeft NOB nu eindelijk 15.662 verwijzingen naar indexkaarten boven water kunnen halen. Ze gebruiken het als Illustratiemateriaal op de website Oorlogslevens en willen via crowdsourcing de kaarten laten transcriberen (voor zover de scankwaliteit van het beeldmateriaal dit toelaat).
Overigens kan wel de vraag gesteld worden waarom er zoveel moeite wordt gedaan voor deze slechte kwaliteit kaarten: de kaarten zijn scans van microficheopnames. De originele kaarten liggen in een depot bij een archief, maar worden niet gescand omdat de Nederlandse vertaling van de GDPR-wetgeving (privacy) in de weg zit. Arolsen Archives mag de kaarten wel op hun website publiceren omdat zij niet aan de Nederlandse wetgeving, maar aan Internationale wetgeving gebonden zijn. Op Europees niveau is er een Holocaust clausule in de GDPR die publicatie van data over de Holocaust toestaat. Deze wetgeving is helaas nog niet in Nederland geratificeerd. Daarom doet het Netwerk Oorlogsbronnen zoveel moeite voor deze kaarten.
Ze hebben een nieuwe metadataset uit Arolsen ontvangen en zullen deze in de komende maanden volgens dezelfde procedure als in dit pilootproject de gegevens gaan binnenhalen en koppelen. Ze hopen vooral dat ze in de toekomst de procedure volledig zelfstandig kunnen reproduceren.
Alternatieve use cases
Voor elke content partner werd individueel gepeild naar de gebruikersbehoeften. Uit de problematieken die naar boven kwamen werden steeds twee à drie mogelijke use cases geformuleerd waarbij VRS een oplossing zou kunnen bieden. Na onderzoek door Datable werd er gekozen voor één specifieke use case per partner, rekening houdende met factoren zoals haalbaarheid en diversiteit. Hieronder vindt u de andere mogelijke use case die tijdens de voorbereiding werd onderzocht.
Vormherkenning van objecten in de periferie
Problematiek
Heel wat foto’s zijn ontsloten op basis van de essentiële elementen die op de foto’s staan. Bijvoorbeeld ‘Foto van prins Bernard tijdens de bevrijding van Heerlen’. Er staat echter niet bij in wat voor voertuig prins Bernard zat, bijvoorbeeld een jeep. Het idee is dat deze foto daarna ook zou opduiken bij zoekopdrachten voor ‘jeep’.
Mogelijke oplossing door VRS
Het taggen van de objecten in de periferie op de foto. Door dit te doen wordt de doorzoekbaarheid van de collectie enorm uitgebreid.