Publicatie:Gezichten herkennen in fotocollecties met Visual Recognition Software

Uit Meemoo Kennisbank
Naar navigatie springen Naar zoeken springen


Samenvatting

Dit pilootproject maakt deel uit van het project Operationalisering van beeldherkenning in de registratiepraktijk.


Referentie
Titel Gezichten herkennen in fotocollecties met Visual Recognition Software (Voorkeurstitel)
Locatie
Uitgever
Jaar van uitgave 2020
Rechten CC-BY-SA
Persistent ID


Projectbeschrijving

Problematiek

Filip Tas (1918-1997) en Suzy Embo (1936-) zijn 2 Belgische fotografen waarvan FOMU hun collectie bezit en beheert. Zij waren beiden actief in de naoorlogse Avant-gardekunstwereld. Suzy Embo was kind aan huis bij artiesten in de post-Cobra-periode en Filip Tas was betrokken bij G58, een groepering van kunstenaars die ontevreden waren omdat hun werk niet werd tentoongesteld op de wereldtentoonstelling in 1958 te Brussel.

Tijdens de digitalisering en de registratie van beide collecties die de afgelopen jaren heeft plaatsgevonden, hadden de collectiemedewerkers en vrijwilligers de indruk dat er een overlap was van figuren die werden geportretteerd door zowel Tas als door Embo. Het is echter heel omslachtig om dit manueel te gaan onderzoeken.

Mogelijke oplossing door VRS

Het idee was om personen te clusteren op basis van gezichtsherkenning. Op deze manier komen dezelfde personen uit beide collecties in één cluster terecht en kan er via het inventarisnummer worden nagekeken welke foto uit welke collectie komt en of er al dan niet een grote overlap is.

Methodologie

Samenvatting
Collectie Suzy Embo: post-Cobra beweging
Beeldarchief Filip Tas
Doel Personen doorzoekbaar maken
Overeenkomsten tussen beide archieven zoeken
Methode
  1. Identificatie faces
  2. Cropping en grouping faces
  3. Tagging grouped faces
  4. Verwerking tags tot Adlib import file
Tools
  1. Azure cognitive services (face recognition)
  2. Knime (data processing en workflow management)
  3. MongoDB (data storage)
Resultaat 184 verschillende personen in 2.007 foto’s geïdentificeerd


Testsets verzamelen

  1. FOMU leverde een testset aan in de vorm van gedigitaliseerde foto's uit de collecties van Filip Tas (8.959 foto's) en Suzy Embo (1.064 foto's).
  2. De foto's werden geschaald tot een resolutie van maximum 1200 pixels (langste zijde). Deze resolutie biedt een optimale balans tussen beeldherkenning en performantie.
  3. De geschaalde foto's werden geüpload naar een FTP-server, waar ze bereikbaar zijn voor de VRS.

Optioneel trainen van VRS

Voor deze set werd geen training uitgevoerd.

Technische uitvoering

Data voorbereiding en verwerking

  1. Er werd een lijst gegenereerd met URL's die naar de bestanden op de FTP-server verwijzen.
  2. Voor elk van deze beelden werd een Detect-request naar de API van de face service van Azure gestuurd.[1] Deze service geeft als resultaat een JSON bestand, met:
    • door de service toegekende identifier van elke gezicht in de vorm van een UUID;
    • coördinaten van de herkende gezichten.
  3. Beelden waarop geen gezicht werd herkend, werden uitgesloten van verdere verwerking.
  4. De resultaten werden vervolgens gebruikt om een Group-request te sturen naar de face service van Azure.[2] Deze service groepeert alle identifiers van de gezichten uit de eerste request, zodat iedere groep een reeks gezichten van (vermoedelijk) dezelfde persoon bevat. Gezichten die niet kunnen gegroepeerd worden, worden verzameld in een set 'messyGroup'.
  5. De coördinaten uit de eerste API-request werden gebruikt om de herkende gezichten uit de foto's te snijden. Deze uitgesneden gezichten werden eveneens geüpload naar de FTP-server.
  6. Gegevens uit de verschillende acties werden samengevoegd en weggeschreven naar een databank (MongoDB).
Voorbeeld identified Face (Azure) met JSON response
Voorbeeld identified Face (Azure) met JSON response - Filip Tas, Claesen, 1966, Collectie Fotomuseum Antwerpen, B_2007_3906_0222_0012 © Filip Tas / SABAM 2020


Benoemen van geïdentificeerde personen

  1. Er werd een dataset samengesteld met daarin voor elke groep:
    • een tijdelijke naam (Person1, Person2, ...) voor de groep;
    • URL die verwijst naar de uitgesneden gezichten;
    • URL die verwijst naar de volledige foto.
  2. De dataset werd als Google Sheet gepubliceerd (zie illustratie).
  3. Een vrijwilliger wijzigde waar mogelijk de tijdelijke namen naar de namen van de herkende personen. In de Google Sheet werd enkel het uitgesneden gezicht getoond. Soms was de volledige context van de foto nodig om de persoon te herkennen. Daarom werd in de Google Sheet ook een link voorzien waarmee de volledige foto geopend kon worden.
  4. Ingevoerde namen werden in de Google Sheet toegevoegd aan een tijdelijke authority. Die werd gebruikt om de Google Sheet van een autocomplete-functie te voorzien. Hierdoor daalde de kans op afwijkende namen van eenzelfde persoon.
FOMU FaceIdentifier (detail)
FOMU FaceIdentifier (detail)


Evaluatie

Gezichtsherkenning

In totaal werden 12.653 foto's geanalyseerd. In 3.007 (23,77%) daarvan werden één of meerdere gezichten herkend. In totaal werden zo 4.600 gezichten herkend.

  • Niet alle gezichten werden herkend: uit analyse van een steekproef van foto's waarop geen gezicht was herkend, bleek dat nog ongeveer een vijfde toch een gezicht bevatte. Geëxtrapoleerd betekend dit dat er ca. 1.929 foto's met een gezicht niet verder werd verwerkt. Niet herkende gezichten waren soms afkomstig van foto's met een sterk contrast of met een lage resolutie.
  • Gezichten van standbeelden, poppen e.d. werden ook als gezicht herkend.

Clustering en identificatie

De herkende gezichten werden gegroepeerd in 607 groepen. 1.823 gezichten konden niet in een groep worden ondergebracht.

  • Een klein aantal groepen (<1%) bevatte verschillende personen.
  • 237 groepen konden worden geïdentificeerd door een vrijwilliger.
  • Identieke personen werden niet steeds in eenzelfde groep ondergebracht: de 237 geïdentificeerde groepen hadden betrekking op 185 personen (78%). Bij het groeperen schijnt ook de kleur van de foto een rol te spelen. Gegroepeerde foto's bevatten steeds eenzelfde kleurenpalet (al waren de meeste foto's zwart wit).

Import in registratiesysteem

  1. De Google Sheet met benoemde personen werd verwerkt tot een CSV-bestand met:
    • naam van het oorspronkelijke bestand;
    • naam van de benoemde persoon. Tijdelijke namen werden behouden, om zo niet-geïdentificeerde personen die op meerdere foto's staan, te kunnen identificeren.
  2. Het CSV-bestand werd door de applicatiebeheerder van FOMU omgezet naar een importbestand volgens het Adlib tagged importformaat.
  3. Bij import werden alle (tijdelijke) namen toegevoegd aan de Adlib-records die de foto's beschrijven.

Juridische implicaties bij gezichtsherkenning

In dit pilootproject werd er gebruik gemaakt van gezichtsherkenningstechnologie. Hierbij verzamelde FOMU informatie over de gezichtskenmerken van personen (de clustering van de gezichten). Eenmaal deze gezichten geclusterd waren werden er (indien mogelijk) persoonsgegevens in de vorm van naam en voornaam aan toegevoegd.

Aangezien FOMU niet beschikt over interne juridische experts heeft meemoo dit samen met hun juridische partner Everest Law uitgepluisd. Uit hun analyse bleek dat dit soort informatie valt onder de definitie van ‘biometrische gegevens’. Biometrische gegevens worden door de GDPR/AVG (General Data Protection Regulation/Algemene verordening gegevensbescherming) aanzien als gevoelige persoonsgegevens of als een ‘bijzondere categorie van persoonsgegevens’. Gezien het niet altijd geweten was of de personen waarop gezichtsherkenning werd toegepast overleden waren, nam FOMU het zekere voor het onzekere en ging het ervan uit dat er conform de GDPR/AVG moest gewerkt worden.

In principe is de verwerking van bijzondere categorieën van persoonsgegevens verboden volgens de GDPR/AVG. Er bestaan evenwel een aantal uitzonderingen op dit verbod. Eén van die uitzonderingen zegt dat het toepassen van gezichtsherkenning technologie is toegestaan als dat noodzakelijk is voor archivering in het openbaar belang, of voor onderzoek en statistiek. Dit wordt nader uitgewerkt in artikel 89 van de GDPR/AVG.

FOMU heeft wel passende waarborgen genomen om de privacy en de belangen van de betrokkenen te beschermen in samenspraak met de DPO verbonden aan FOMU. Hierbij zijn volgende acties ondernomen:

  • Er is aangetoond dat dit onderzoek onmogelijk is indien het verbod op gezichtsherkenning wordt gehandhaafd (dit is namelijk het vertrekpunt van dit pilootproject).
  • Er is een verwerkersovereenkomst gesloten tussen de verwerkingsverantwoordelijke (FOMU) en de verwerker (Datable). Hierin is conform de heersende wetgeving een correct juridisch kader afgesproken waarin de verwerker voor een bepaalde duur over de gegevens beschikt om de voorgeschreven verwerking uit te voeren en daarna deze gegevens vernietigt.
  • Er is onderzocht dat subverwerkers de gegevens niet bijhouden of vernietigen.
  • Er is een verwerkingsregister opgesteld en ingediend bij de DPO verbonden aan FOMU.

Relevante wetteksten

General Data Protection Regulation/Algemene verordening gegevensbescherming (Art.89)

Bevindingen

Cijfers

  • Er werden 12.653 beelden verwerkt.
  • Op 2.007 van de verwerkte beelden werden één of meerdere gezichten gevonden
  • Op 1.759 beelden werden één of meerder personen geïdentificeerd (1.204 uit de collectie  Tas, 555 uit de collectie Embo)
  • In totaal werden 492 verschillende personen geïdentificeerd (waarvan 184 benoemd konden worden), die samen 2.135 maal werden afgebeeld (1.144 indien enkel benoemde personen worden geteld).
  • Eén persoon kwam zowel in de collectie van Tas als Embo voor.

Bevindingen

Hetgeen direct opvalt is dat de overlap tussen de collecties Embo & Tas zo goed als onbestaande is. Er is slechts één persoon die in beide collecties voorkomt. Het resultaat an sich was dus niet zo interessant, maar de methode en het inzicht die daarbij verworven is des te meer.  Via relatief weinig manuele arbeid is het mogelijk om een onderzoek te doen naar een overlap van personen tussen collecties. Één van de meest tijdrovende aspecten aan deze methode is het valideren en benoemen van de herkende gezichten. Dit werd gedaan door de vrijwilligers die reeds in het verleden deze collecties beschreven hebben, en dus de best het geplaatst waren voor deze taak. We leerden hieruit dat een combinatie van machine (gezichten groeperen) en mens (gezichten benoemen) nodig is, ook om de fouten te kunnen detecteren (poppen of standbeelden die als menselijk gezicht worden aangeduid door de VRS).

Doordat dezelfde gezichten naast elkaar werden opgelijst, hebben ze ook extra beschrijvingen opgeleverd (bv. persoon X die al op foto 1 en 2 maar nog niet op foto 3 benoemd was). Tijdens het valideren en benoemen van de gezichten werd verder duidelijk dat bij elk gezicht een link naar het bronbestand nodig is. Voor registratoren en vrijwilligers was enkel een uitgeknipt gezicht niet altijd voldoende om de persoon in kwestie te herkennen.

Verder was het wel teleurstellend dat de gezichtsherkenning toegepast op contactvellen geen succes was. De resolutie was hier niet voldoende. Dit wil FOMU verder onderzoeken omdat het een enorm voordeel zou kunnen bieden. Heel wat collecties zijn ontsloten via de zogenaamde contactvelmethode. Dit houdt in dat bv. 36 kleinbeeldnegatieven of 12 kleinbeelddia’s eerst in een transparante insteekhoes worden geplaatst en vervolgens in één enkele opname worden gedigitaliseerd. Het resultaat is een digitale ‘contactafdruk’. Indien we gezichtsherkenning (of een andere vorm van tagging door VRS) kunnen toepassen op de contactvellen, zou dit helpen voor de verdere digitalisering en beschrijving van bepaalde (deel)collecties.

De combinatie met de contactvelmethode is echter maar één van de mogelijke pistes die er zijn voor VRS binnen FOMU. Het kan ook interessant zijn om collecties die enkel op collectieniveau beschreven zijn, te laten taggen door een ongetrainde VRS. De output hiervan kan deze collectie voor intern onderzoek al een stuk doorzoekbaarder maken. Het gericht zoeken naar personen binnen andere collecties lijkt ook boeiend voor toekomstige projecten. VRS kunnen met een zeer beperkt aantal beelden getraind worden op het herkennen van personen. Als men weet dat personen X en Y aanwezig zijn in een nog niet ontsloten collectie, kan dit een handig instrument zijn om deze personen makkelijk terug te vinden. De beelden moeten dan natuurlijk gedigitaliseerd zijn.

Alternatieve use case

Voor elke content partner werd individueel gepeild naar de gebruikersbehoeften. Uit de problematieken die naar boven kwamen werden steeds twee à drie mogelijke use cases geformuleerd waarbij VRS een oplossing zou kunnen bieden. Na onderzoek door Datable werd er gekozen voor één specifieke use case per partner, rekening houdende met factoren zoals haalbaarheid en diversiteit. Hieronder vindt u de andere mogelijke use cases die tijdens de voorbereiding werd onderzocht.

Rudimentaire beeldherkenning van bijvoorbeeld Landschappen

Problematiek

De meeste fondsen of deelcollecties zijn enkel op (deel)collectieniveau ontsloten. Bijvoorbeeld duizend landschappen van fotograaf Y. Wat voor landschappen dit zijn is echter niet geweten.

Mogelijke oplossing door VRS

De bedoeling is dat de VRS tags kunnen toekennen op rudimentair niveau (boom, bos, water, zonsopgang,…) zodat de foto’s doorzoekbaar worden.

Referenties