Publicatie:Operationalisering van beeldherkenning in de registratiepraktijk

Uit Meemoo Kennisbank
Naar navigatie springen Naar zoeken springen


Samenvatting

In het project ‘Operationalisering van beeldherkenning in de registratiepraktijk’ onderzochten FOMU, Datable en meemoo de haalbaarheid van het gebruik van geautomatiseerde beeldherkenning als alternatief of aanvulling voor de handmatige beschrijving van erfgoedobjecten. Er werd gezocht naar een methodologie om beeldmateriaal te laten 'taggen' of categoriseren met behulp van online beeldherkenningsdiensten en de resultaten ervan te integreren in de registratiesystemen. Om een goed beeld te krijgen van de mogelijkheden van deze technologie werden vier uiteenlopende pilootprojecten uitgewerkt van de content partners FOMU, Erfgoedcel Brugge, MoMu en Netwerk Oorlogsbronnen. Het eindrapport is nu gepubliceerd op CEST.


Referentie
Titel Eindrapport Operationalisering van beeldherkenning in de registratiepraktijk (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2020
Rechten CC-BY-SA
Persistent ID


Auteur(s)

  • Alexander Derveaux (FOMU)
  • Nastasia Vanderperren (PACKED/VIAA)
  • Henk Vanstappen (./DATABLE)

Partners

Technische partner

  • Datable

./DATABLE was verantwoordelijk voor de volgende taken:

  • onderzoek aanbod VR services;
  • definitie gebruiksbehoeften;
  • training van VRS modellen;
  • creatie van een architectuur voor het geautomatiseerd afhandelen van requests bij één of meerdere VRS;
  • verzamelen datasets bij content providers;
  • onderzoek integratie met registratieprocessen;
  • verzamelen, structureren en valideren van de resultaten zodat ze in een collectieregistratiesysteem of DAMS kunnen worden geïmporteerd.

Verder leverde Datable BV ondersteuning voor:

  • de evaluatie van de resultaten;
  • de definitie van onderzoeksscenario’s.

In 2019 voltooide Datable het Innovatief partnerproject Visual Recognition for Cultural Heritage (VR4CH) dat in samenwerking met het MoMu Antwerpen werd uitgevoerd (2018-2019).

Inhoudelijke partner

Content partners

Projectbeschrijving

De omvang van de FOMU collectie is enorm. De collectie van FOMU bevat meer dan 3 miljoen objecten. De registratie van objecten, archieven en andere erfgoedcollecties is echter een zeer arbeidsintensief proces. Een beperkte inhoudelijke ontsluiting kan een (deel)collectie reeds aanzienlijk bruikbaarder maken dan een aantal formele en administratieve kenmerken waartoe registratie vaak beperkt blijft. Dit zou de doorzoekbaarheid en vindbaarheid van collecties aanzienlijk kunnen verhogen.

Artificiële intelligentie (AI) biedt krachtige oplossingen om voorwerpen, personen en zelfs emoties geautomatiseerd te herkennen. De technologie is intussen ook online beschikbaar voor (erfgoed)organisaties via Visual Recognition Services (VRS) op meerdere platformen (Google vision, Clarifai, Microsoft Azure,….).

In het project ‘Operationalisering van beeldherkenning in de registratiepraktijk’, gesteund met een projectsubsidie door de Vlaamse overheid, onderzocht FOMU in samenwerking met Datable & meemoo de toepassing van VRS voor de basisregistratie van erfgoedobjecten. Het project wou de haalbaarheid onderzoeken van het gebruik van geautomatiseerde beeldherkenning via VRS als alternatief en/of aanvulling voor de handmatige beschrijving van erfgoedobjecten. Er werd onderzocht hoe beeldmateriaal te ‘taggen’ en/of categoriseren met behulp van bestaande online beeldherkenningsdiensten en de resultaten te integreren in de collectiedata.

Het project ‘Operationalisering van beeldherkenning in de registratiepraktijk’ omvat 4 pilootprojecten (zie sectie resultaten) die zijn opgesteld met de 4 content partners. De projecten zijn erg uiteenlopend, op deze manier hebben we verscheidene manieren van het toepassen van VRS onderzocht en zijn er ook verschillende services gebruikt. Dit heeft gezorgd dat we nu een beter beeld hebben van wat deze technologieën kunnen betekenen voor erfgoedinstellingen.

Doelstellingen

  • De haalbaarheid onderzoeken van het gebruik van VRS als aanvulling of vervanging van ‘manuele’ registratie. Door output van VRS systemen te evalueren zal worden bepaald welke meerwaarde ze kunnen bieden tegenover traditionele registratie.
  • Methoden ontwikkelen om VRS in te zetten bij registratie, zodat die efficiënter (i.e. vollediger, sneller en met minder personeel) kan verlopen.
  • Methoden ontwikkelen om beeldcollecties op alternatieve  manieren te ontsluiten, zodat er op vernieuwende manieren gebruik kan van worden gemaakt. In de eerste plaats denken we daarbij aan het geautomatiseerd herkennen van ‘aboutness’ van een beeld (bv. de sfeer van een afbeelding).
  • Bekendmaken van de mogelijkheden van VRS in functie van collectiebeheer en -ontsluiting. Voor de registratie rekenen organisaties vandaag voornamelijk op de tools die ingebouwd zijn in het softwareproduct dat ze gebruiken. Dit project wil de technische en operationele haalbaarheid aantonen om externe VRS te gebruiken in combinatie met de gangbare collectiebeheersystemen.
  • Sensibiliseren van de innovatieve mogelijkheden van VRS in functie van verder onderzoek.
  • Hoewel we met dit project in de eerste plaats een methodologie willen testen en ontwikkelen, zal het als output ook inhoudelijke metadata van de testsets opleveren. Minimaal gaat het om telkens een duizend beelden van  beeldcollecties van de vier partners FOMU, Erfgoedcel Brugge & Stadsarchief Brugge, MoMu en Netwerk Oorlogsbronnen.

Methodologie

Zie methodieken per pilootproject voor de technische, individuele aanpak.

Stap 0: Vooronderzoek

Aan de hand van een vooronderzoek werden verschillende VR-services in kaart gebracht door Datable (o.a. IBM Watson, Clarifai, Google Vison, Microsoft Azure Computer Vision, Vidinoti). Deze services werden verkend aan de hand van een beperkte set beelden. Dit vooronderzoek werd aangevuld met resultaten van het Innovatief Partnerproject VR4CH van MoMu, Datable en PACKED.

Stap 1: Voorbereiding

Er werd individueel gepeild naar de gebruikersbehoeften van elke content partner. Hierbij werden niet alleen registratoren bevraagd maar ook andere medewerkers zoals bijvoorbeeld communicatiemedewerkers. Uit de problematieken die naar boven kwamen werden steeds 2 à 3 mogelijke usecases geformuleerd waarbij VRS een oplossing zou kunnen bieden. Na sample onderzoek door Datable werd er gekozen voor één specifieke usecase per partner, rekening houdende met factoren zoals haalbaarheid en diversiteit.

Bij elke case is tevens onderzocht welke VRS het meest geschikt is en of er noden of mogelijkheden zijn om ze te trainen. Per content partner werd ook nagegaan hoe de VRS data terug kon gemapt worden naar hun collectiebeheersystemen/digital asset management systemen (DAMS).

Stap 2: Uitvoering

1. Testsets verzamelen

Waar mogelijk werd gebruik gemaakt van digitale bestanden die via een url bereikbaar zijn (bv. in een DAMS). In andere gevallen worden gedigitaliseerde bestanden in een online repository geplaatst, er zijn geen beelden gedigitaliseerd geweest tijdens dit project. Voor zover beschikbaar werden reeds aanwezige metadata verzameld en gestructureerd.

2. Optioneel trainen van VRS

Bepaalde VRS laten toe de service te trainen. Hoewel de focus lag op off-the-shelf beschikbare VRS’s, zijn er voor bepaalde VRS’s trainingsessies uitgevoerd.

3. Technische uitvoering

De creatie van een architectuur voor het geautomatiseerd afhandelen van requests bij één of meerdere VRS en het verzamelen, structureren en valideren van de resultaten zodat ze in een collectieregistratiesysteem of DAMS kunnen worden ingelezen.


De architectuur bestond uit volgende componenten:

Architectuur
Component Toepassing Software
Images & metadata Beheersysteem voor beeldmateriaal van de content partner
  • aanbieden van beeldmateriaal en eventueel bijhorende metadata
  • importeren van de resultaten.
OmekaS, ResourceSpace, Memorix
Training en classificatie Visual recognition service
  • toekennen van inhoudelijke kenmerken (tagging)
  • herkennen en groeperen van faces
Google Vision, Azure, Clarifai, Everypixel
Web server Tijdelijke opslag beeldmateriaal via sFTP en HTTP Apache
Data processing
  • Communicatie tussen verschillende componenten
  • Verwerken van data
Knime
Validation
  • Beoordelen van gegevens
  • Manuele verwerking van gegevens
Google Sheets
Viewer Beoordelen van resultaten Fotorama
Data Tussentijdse opslag van data MongoDB


Schematische weergave architectuur:


VRS Technology stack


4. Evaluatie

De VRS-resultaten werden vergeleken met door domeinexpert getagde testsets en/of er was een beoordeling van de relevantie/juistheid van de tags door domeinexpert. Daarnaast vond ook  een vergelijking plaats van de resultaten met de analyse van gebruikersbehoeften.

5. Implementatie

De resultaten werden verwerkt in de registratiesystemen van de Content Partners.

Stap 3: Rapportage en disseminatie

De aankondiging van het project, regelmatige updates en de projectresultaten via de nieuwskanalen van de verschillende partners (nieuwsbrieven, social media) en andere nieuwskanalen (FARO, NDE). De onderzoeksresultaten per pilootproject werden gepubliceerd op CEST. Daarnaast zijn er ook presentaties en demo’s gegeven op relevante events voor erfgoedorganisaties (o.a. Informatie aan Zee en Collegagroep digitale collectieregistratie).

Tijdslijn

  • In oktober 2018 werd vanuit FOMU een subsidie aangevraagd en toegekend om dit project uit te voeren.
  • In april 2019 werd een medewerker vanuit het FOMU aangesteld om dit project te begeleiden. Er werd tevens een offerte uitgestuurd voor de technische coördinatie van het project. Dit werd toegekend aan Datable BV.
  • In mei 2019 ging het project officieel van start met een bijeenkomst van alle betrokken partners.
  • Er werd gepeild naar de gebruikersbehoeften van de content partners. Op basis hiervan kwamen 4 relevante usecases tot stand. De resultaten van elk pilootproject kan men hieronder bekijken.
  • Tussen juli 2019 & januari 2020 vond de technische uitvoering van de 4 usecases plaats.
  • In januari 2020 is er een presentatie gegeven over het project aan de content partners en andere stakeholders.
  • Eind april 2020 is het project afgelopen en in het voorjaar van 2020 werd het project gedocumenteerd op CEST.

Resultaten

Pilootprojecten

Besluit

Inzetbaarheid van VRS voor erfgoedcollecties

De meerwaarde van VRS ten opzichte van manuele registratie zit onder andere in de efficiënte bij grote (en uniforme) volumes zoals bijvoorbeeld in de case van NOB. Aan de hand van minimale training is er daar een perfect resultaat neergezet waar een manuele registrator er veel langer over zou doen. In dit geval was een VRS veel goedkoper én sneller dan een manuele registrator. De training en de resultaten van de VRS verlopen echter niet altijd vlekkeloos zoals in andere cases is aangetoond. Afhankelijk van de eisen die men stelt bij de precisie van VRS (de toelaatbare foutenmarge) zal het resultaat variëren. Dit is ook één van de redenen waarom VRS steeds per case bekeken moet worden en moeilijk universeel toepasbaar is. De vraag die gesteld wordt of VRS de manuele registrator kan vervangen lijkt nu nog niet aan de orde, het is de combinatie van mens en machine  die voor de grootste meerwaarde zal zorgen. Zo was er bv. bij FOMU tijdswinst doordat de VRS foto’s groepeerde waarop dezelfde persoon voorkwam, waarna vrijwilligers vervolgens aangaven over welke persoon het ging. Op die manier konden toch telkens bruikbare resultaten worden geïntegreerd in de registratiesystemen.

Toepasbaarheid voor VRS in de toekomst

De technologie die gebruikt werd voor de use cases is publiekelijk toegankelijk en betaalbaar. De software die werd gehanteerd was low of zelfs no coding. Desondanks is de leercurve vrij steil. Het is trial-and-error proces waarbij er steeds een model moet uitgewerkt worden per use-case , wat veel tijd en kennis vergt. Deze kennis is veelal niet aanwezig in erfgoedinstellingen. Op dit moment zouden de meeste musea dus nog iemand extern moeten inschakelen om dit voor hen te doen. Idealiter zou deze kennis steeds bij een bepaalde medewerker op de collectieafdeling worden geborgd. Registratoren zijn hiervoor de aangewezen persoon, maar ervaren vaak al een hoge werkdruk. Naar de toekomst toe is het dus ook belangrijk dat er binnen de collectie steeds aandacht wordt besteed aan dit soort technologie om te bekijken hoe dit consequent kan ingezet worden tijdens de registratie en ontsluiting en eventueel zelfs een onderdeel kan worden van de reguliere werking. Voor specifieke voorbeelden kan je hieronder terecht en ook in het VR4CH rapport van Datable staan mogelijke toepassingen.

Output van Pilootprojecten

Voor het verloop en de bevindingen van de pilootprojecten voor elke content partner kan je terecht op de individuele pagina’s van elk pilootproject. De output gegenereerd in de verschillende piloorprojecten is tevens steeds geïntegreerd in de collectiebeheersystemen van de content partners. Dit project heeft voor elke content partner bruikbaar materiaal opgeleverd.

Andere projecten & toepassingen

In het project werd ook onderzoek gedaan naar andere projecten en toepassingen voor VRS. Verschillende erfgoedinstellingen zijn immers al aan de slag gegaan met beeldherkenning.

De meeste use cases hebben betrekking op het aanbieden van nieuwe ervaringen aan de bezoekers van hun collectiewebsite om de collectie te ontdekken, maar tevens hebben ze een focus op het beter doorzoekbaar maken van beelden. Uit onderzoek blijkt namelijk dat gebruikers de behoefte hebben om beelden te kunnen zoeken op basis van inhoudelijke kenmerken. Dit kan gaan over identificeerbare objecten (Eiffeltoren), generieke objecten (stoel) of op basis van iconologische thema’s (Het Laatste Avondmaal) en abstracte begrippen (geluk, jeugd)[1].

Koppelingen leggen tussen beelden van objecten en tentoonstellingszichten

The Museum of Modern Art (MoMA) gebruikte AI-diensten van Google om historische foto’s van afgelopen tentoonstellingen te koppelen aan de beelden uit de kunstcollectie die te zien zijn op die tentoonstellingszichten. De VRS analyseerde hiervoor alle foto’s van tentoonstellingen. Wanneer het een kunstwerk op de foto herkende, legde het een koppeling met het beeld van het kunstwerk. MoMA stelde hierbij vast dat het goed scoorde op tweedimensionale, statische afbeeldingen (zoals een schilderij), maar dat het slechter scoort op 3D-objecten (zoals een sculptuur) of bewegende beelden.[2]

Gelijkaardige beelden clusteren en visualiseren

Wellcome Collection heeft 120.000 beelden die beschikbaar zijn via een API en nog eens 40 miljoen beelden die via een open licentie beschikbaar zijn voor het publiek. Ondertussen blijft het digitaliseringsteam de rest van de collectie digitaliseren waardoor er dagelijks duizenden nieuwe beelden bijkomen. Het is onmogelijk om deze beelden manueel te gaan beschrijven en ontsluiten, terwijl het zonder metadata onmogelijk is om beelden te vinden. Daarom wordt machine learning gebruikt om de collectie meer toegankelijk te maken. Wellcome Collection heeft zelf een model getraind om de beelden te categoriseren en om gelijkaardige beelden te clusteren. Dit wordt voornamelijk intern gebruikt om ongewenste beelden te verwijderen uit de collectiewebsite en de registratieworkflow te verbeteren. In de toekomst wil men het mogelijk maken dat bezoekers van de collectiewebsite gelijkaardige beelden te laten vinden op basis van een beeld.[3]

Voor het Noorse Nasjonalmuseet werd beeldherkenning gebruikt om compositionele gelijkenissen te zoeken tussen de kunstwerken. Dit resulteerde in een vernieuwde publiekstoegang waarbij kunstwerken op basis van gelijkenissen gevisualiseerd werden. Hoe meer gelijkenissen een kunstwerk heeft, hoe dichter de kunstwerken bij elkaar staan.[4]

Beelden categoriseren

In 2019 werd een deel van de collectie Anonieme snapshots van Huis van Alijn gebruikt om te onderzoeken of een VRS in die mate getraind kan worden dat het kan leren om foto's in te delen in vooropgestelde categorieën. Hiervoor werd Clarifai gebruikt. Het ging om foto's uit de 20e eeuw: van 1900 tot 1999. Er werd onderzocht of de VRS in staat was om de foto's in te delen in thema's die door Huis van Alijn bepaald waren. Tevens werd nagegaan of de VRS zo getraind kon worden dat het de foto's kon indelen in de decennium waarin de foto gemaakt was. Er werd een model gemaakt die de foto's moest indelen in vijf thema's en een model dat de foto's moest indelen in tien decennia. Voor het indelen van de foto's zorgde dit voor goede resultaten. Het thematische model slaagde erin om 95% van de beelden correct te classificeren; bij het periodemodel was slechts 57% correct. Een pijnpunt bij die laatste test was ook de kleine hoeveelheid beelden die gebruikt kon worden voor het model te testen.[5]

In het project van het Nasjonalmuseet (zie infra) werden de beelden door de beeldherkenningssoftware geclassificeerd op basis van Iconclass.[4]

Beelden doorzoekbaar maken

Het Britse webbedrijf CogApp liet drie VRS-software (Clarifai, Google Cloud Vision en Microsoft Computer Vision) los op tweeduizend beelden van schilderijen van het Zweedse Nationalmuseum. Ze wilden hiermee de collectie beter doorzoekbaar maken op basis van de inhoudelijke kenmerken. Dit resulteerde in een visuele zoekmachine waarin een selectie van beelden op basis van filters verkregen kan worden. Iedere tag die een VRS gaf aan een beeld werd gebruikt als filter, zoals Renaissance, snor, cape, baby, etc. CogApp concludeerde hieruit dat de VRS eenvoudig in gebruik zijnn en accurate beschrijvingen kunnen geven van beelden. Ze vermoedden dat foutieve beschrijvingen een gevolg zijn van het trainen van de VRS met hedendaagse beelden, terwijl de beelden van het Nationalmuseum historisch zijn.[6][7]

Voor Sarjeant Gallery werd een nieuwe collectiewebsite ontwikkeld. De collectie kan op de nieuwe website doorzocht worden op basis van kleur, beeldoriëntatie en tags. Die tags werden gegenereerd via de Google Vision API. Het originele plan was om die tags enkel intern te laten gebruik door collectiemedewerkers om sets van beelden rond een bepaald onderwerp te maken. Men vond de tags echter zo goed dat besloten werd om ze ook op de website te publiceren. Doordat veel kunstwerken geen onderwerpbeschrijving hadden, konden de tags gebruikt worden om gerelateerde kunstwerken te vinden. Foutieve tags worden verborgen door de collectiemedewerkers.[8]

The Swedish National Heritage Board creëerde een webinterface waarbij de collectie doorzoekbaar gemaakt wordt met onder meer Google Cloud Vision.[9]

Ook op de collectie Anonieme Snapshots (zie infra) werd getest of een VRS (Clarifai) kan helpen bij het beschrijven en het doorzoekbaar maken van de beelden op basis van tags. Ongeveer 70% van de tags die de VRS aanleverde waren correct. Het scoorde iets beter op recente foto's, maar was ook in staat om aan oude foto's minstens een aantal correcte tags te geven. Vooral performantie is een sterk punt van de VRS. In ongeveer 35 minuten werden 845 foto's van twintig tags voorzien. Opvallend was dat een VRS in vergelijking met een menselijke registrator een andere soort beschrijving geeft. Regelmatig keerden tags terug die emoties (liefde, affectie), sfeer (plezier, vriendschap) of activiteiten (reizen, winkelen) verwoorden. Dat soort trefwoorden ontbrak bij de beschrijving van de registratoren. Nochtans kunnen deze termen de bezoeker nieuwe ervaringen aanbieden om de collectie te ontdekken. Op beelden die een typisch lokale (hier: Vlaamse/Belgische) traditie voorstellen, scoorde de VRS ronduit slecht. Daarom wordt in de paper voorgesteld om een foutenmarge in te stellen. Tags die een te lage waarschijnlijkheidsscore krijgen, dienen dan geweerd te worden.[5]

Basisregistratie

Auckland Museum heeft een collectie van zeven miljoen objecten die gaan van kunst tot archieven, culturele collecties, natuurwetenschappelijke specimen, oorlogscollecties en een onderzoeksbibliotheek. Door digitalisering van de collectie komen er maandelijks tweeduizend nieuwe beelden bij. Er werd ingeschat dat het decennia zou duren eer de volledige gedigitaliseerde collectie geregistreerd zal zijn. Daarom verkent ook Aukland Museum VRS om de collectie automatisch te laten taggen en een basisrecord per beeld te creëren. Microsoft Computer Vision werd gebruikt om een test te doen met tweeduizend beelden. Deze VRS is immers in staat om een korte captions te geven bij eidere foto. Captions met een lagere waarschijnlijkheidsscore dan 60% werden verwijderd om te vermijden dat er beschamende of misleidende records gepubliceerd worden. Het museum concludeert uit dit onderzoek dat VRS nuttig zijn om snel basisrecords te creëren voor beelden waarmee zowel interne als externe gebruikers zich een weg kunnen zoeken doorheen de collectie. Over de feitelijke implementatie zijn er nog vragen: hoe zullen bijvoorbeeld al die tags gereviewed moeten worden? En moet je aan de gebruiker laten weten dat de tags door een AI-systeem gecreëerd werden?[10]

Contactgegevens

Alexander Derveaux
FOMU - fotomuseum Antwerpen
Waalsekaai 47
2000 Antwerpen
E: alexander.derveaux@fomu.be

Nastasia Vanderperren
meemoo
Kleindokkaai 9a
9000 Gent - België
E: nastasia.vanderperren@meemoo.be

Henk Vanstappen
Datable
Designcenter de Winkelhaak
Lange Winkelhaakstraat 26,
2060 Antwerpen
E: henk@datable.be

Referenties

  1. Publicatie:Rapport Visual Recognition for Cultural Heritage (VR4CH)
  2. MOMA, Identifying art through machine learning. A project with Google Arts & Culture Lab, https://www.moma.org/calendar/exhibitions/history/identifying-art, 2018.
  3. Harisson, P., Exploring Wellcome Collection with computer vision, https://stacks.wellcomecollection.org/exploring-wellcome-collection-with-computer-vision-7513dff8126d, 2018
  4. 4,0 4,1 Nasjonalmuseet, Project: "Principal Components", https://www.nasjonalmuseet.no/en/about-the-national-museum/collection-management---behind-the-scenes/digital-collection-management/project-principal-components/, 2018
  5. 5,0 5,1 Vanderperren, N., Het gebruik van Computer Vision API's voor de beschrijving van cultureel-erfgoedcollecties, https://catalogus.hogent.be/catalog/hog01:000728513, 2019
  6. Hindle A., Automated image analysis with IIIF. Using Artificial Intelligence for bulk image analysis, https://blog.cogapp.com/automated-image-analysis-with-iiif-6594ff5b2b32, 2017
  7. Rodddis, T., When automated analysis goes wrong, https://www.slideshare.net/Europeana/when-automated-analysis-goes-wrong-by-tristan-roddis-europeanatech-conference-2018, 2018
  8. Rowe, P., Looking at Sarjeant Gallery’s collection through robot eyes, https://medium.com/@armchair_caver/looking-at-sarjeant-gallerys-collection-through-robot-eyes-c7fd0281814e, 2017
  9. Haskiya, D., How to set up a generous interface prototype in less than a day, https://pro.europeana.eu/post/how-to-set-up-a-generous-interface-prototype-in-less-than-a-day, 2019
  10. Moriarty, A., Computers Colouring the Collection, https://medium.com/aucklandmuseum/computers-colouring-the-collections-a32054295b1e, 2018