Publicatie:Gezichtsherkenning bij erfgoedcollecties
Sinds enkele jaren lopen in de (internationale) cultureel-erfgoedsector projecten rond de toepassing van artificiële intelligentie (AI) en machinelearning, met name van gezichtsherkenning bij het beschrijven en ontsluiten van collecties. Vanwaar komt dat belang van gezichtsherkenning voor de cultureel-erfgoedsector? Wat hebben we al geleerd uit die projecten? En wat zijn de uitdagingen waarmee we rekening moeten houden bij een verdere uitrol? Dit artikel vertrekt van opgedane ervaringen in het project FAME (FAce MEtadata): operationalisering van metadatagedreven gezichtsherkenning in de registratiepraktijk, gefinancierd door de Vlaamse overheid en in 2021-2022 uitgevoerd door meemoo, Vlaams instituut voor het archief, in samenwerking met de Universiteit Gent (UGent) als technische partner, en het Archief en Documentatiecentrum voor het Vlaams-nationalisme (ADVN), het archief van het Vlaamse Parlement, het Museum van de Wielersport KOERS en Kunstenpunt als contentpartners. Ook andere projecten komen aan bod, onder andere het project Tegenlicht: Het digitaliseren, beschrijven en toegankelijk maken van vier journalistieke negatiefarchieven (ADVN, Fotomuseum Antwerpen (FOMU) en KOERS), het project Van de lichtbak af (Vlaams Architectuurinstituut, VAi) en het GIVE-metadataproject (meemoo).
Titel | Gezichtsherkenning bij erfgoedcollecties (Voorkeurstitel) |
Locatie | |
Uitgever | |
Jaar van uitgave | 2022 |
Rechten | CC-BY-SA |
Persistent ID |
Auteurs
- Bart Magnus (meemoo - Vlaams instituut voor het archief)
- Nastasia Vanderperren (meemoo - Vlaams instituut voor het archief)
- Ellen Van Keer (meemoo - Vlaams instituut voor het archief)
- Rony Vissers (meemoo - Vlaams instituut voor het archief)
- Matthias Priems (meemoo - Vlaams instituut voor het archief)
- Henk Vanstappen (Datable)
- Phaedra Claeys (ADVN)
- Alexander Derveaux (FOMU)
Wat is gezichtsherkenning?
Gezichtsherkenning is, zoals tekst-, object- en plaatsherkenning, een geautomatiseerde beeldherkenningstechniek. Die kan op grote schaal gebruikt worden om in foto’s en video’s mensen te detecteren en te identificeren. Gezichtsherkenning ligt vandaag gevoelig. Ze kan in combinatie met het gebruik van beveiligingscamera’s bijvoorbeeld ingezet worden om automatisch te beslissen of een bepaalde persoon al dan niet toegang krijgt tot een bepaalde locatie, zonder dat de persoon zich persoonlijk kenbaar maakt (bijvoorbeeld met een identiteitsbewijs). Analyses en beslissingen op basis van machinelearning kunnen een risico op discriminatie van individuen inhouden met betrekking tot bijvoorbeeld de etniciteit, het geslacht of de leeftijd van de herkende personen, en ze kunnen bepaalde maatschappelijke ongelijkheden verder versterken, zonder of met een minimum aan menselijke tussenkomst.
Verbetering van vind- en doorzoekbaarheid
Ondanks de negatieve connotaties heeft gezichtsherkenning ook voordelen, zeker voor bibliotheken, archieven en documentatiecentra. Doordat die vaak geen of onvoldoende metadata hebben over de personen die voorkomen in hun (grote) foto- en videocollecties, kunnen geïnteresseerde gebruikers het materiaal niet gemakkelijk vinden en doorzoeken. De bruikbaarheid en de valorisatie ervan blijven hierdoor beperkt.
Het creëren van de nodige metadata vereist niet alleen kennis, maar ook tijd. Met gezichtsherkenning kunnen we niet enkel op een (semi)geautomatiseerde manier bepalen wie op welk beeld afgebeeld staat, maar ook aanduiden wie welke persoon is wanneer hetzelfde beeld meerdere personen weergeeft. Bij video’s kunnen we eveneens beschrijven welke persoon op welk moment in beeld is. Zo winnen collectieregistratoren tijd voor andere taken.
Loutere gezichtsdetectie kan bij grote hoeveelheden foto’s en video’s van diverse aard ook gebruikt worden om, zoals in het project Van de lichtbak af, in het kader van de bescherming van persoonsgegevens te bepalen op welke foto’s mensen afgebeeld staan. Indien personen herkenbaar afgebeeld zijn, vormen de foto’s en video’s persoonsgegevens en vereisen ze beschermingsmaatregelen.
Aanwezige beschrijvende metadata aanvullen
De gezichtsherkenningsresultaten kunnen een belangrijke aanvulling zijn op aanwezige beschrijvende metadata. Ze kunnen een andere blik werpen op de collectie en zo de vind- en doorzoekbaarheid ervan verbeteren.
Een documentatiecentrum dat zich toelegt op podiumkunsten zal bijvoorbeeld van een collectie dansfoto’s wellicht in de eerste plaats beschrijven welke dansproductie ze afbeelden en wie de choreograaf is. De namen van de afgebeelde dansers en andere medewerkers hebben minder direct belang en worden vaak niet per foto geregistreerd, wat de bruikbaarheid van de foto’s beperkt. Door de toepassing van gezichtsherkenning kunnen deze metadata (semi)geautomatiseerd gecreëerd worden. Iemand die de foto’s bijvoorbeeld in het kader van wetenschappelijk onderzoek doorzoekt, zal dat dan ook kunnen doen op basis van de naam van een danser. Mogelijk is die danser vooral bekend als choreograaf van eigen werk, maar heeft hij eerder in zijn carrière als danser meegewerkt aan dansproducties van andere choreografen. Zonder de toepassing van gezichtsherkenning bleef dat deel van zijn loopbaan wellicht minder bekend of onderbelicht.
Juridische en ethische uitdagingen
In FAME botsten we op een hele reeks uitdagingen, waarvan een aantal niet zuiver technisch zijn. Het was een inherent onderdeel van het project om die bloot te leggen en waar mogelijk een (begin van een) antwoord te formuleren. Dat was noodzakelijk voor de opschaling die meemoo beoogt, maar ook nuttig voor andere organisaties in de cultureel-erfgoedsector die met gezichtsherkenning aan de slag willen.
Foto- en videocollecties (semi)automatisch verwerken met gezichtsherkenning heeft vooral implicaties op het vlak van auteursrecht en de bescherming van persoonsgegevens, en roept bovendien heel wat ethische vragen op. Er werden een studiedag en een artikel op de website van meemoo aan gewijd (ap.lc/fl3wF). Ook in de Uitgepakt-rubriek van META 2022/4 en 2022/5 worden respectievelijk relevante ethische en juridische aspecten bekeken. Aan de ethische kwesties is verder een uitgebreid artikel gewijd in het nummer 15(2022)2 van faro | tijdschrift over cultureel erfgoed: ‘Hoe ethisch is gezichtsherkenning op erfgoedcollecties?’.
Herkennen van publieke personen
FAME richtte zich op het herkennen van publieke personen, met name van podiumkunstenaars (in de collectie van Kunstenpunt), wielrenners (in de collectie van KOERS) en politici en activisten (in de collectie van het ADVN en het archief van het Vlaams Parlement). We hebben daarbij vooral foto’s gebruikt, maar we hebben onze werkwijze ook (experimenteel) uitgebreid naar een kleine selectie video’s.
Deze keuze voor het herkennen van publieke personen is bewust. Vele gebruikers van bibliotheken, archieven en documentatiecentra zoeken naar informatie over publieke personen. Afbeeldingen van personen en de biometrische gegevens die daaruit gedistilleerd worden, zijn persoonsgegevens, en de regelgeving inzake de bescherming van persoonsgegevens bepaalt een soepeler regime voor publieke personen en gebeurtenissen bij verwerkingen in een onderzoeks- en archiefcontext. Bovendien werkt gezichtsherkenning op basis van de vergelijking van afbeeldingen van gezichten, en is het gemakkelijker om voldoende referentiefoto’s te vinden van publieke personen dan van niet-publieke personen.
Trainingsmodellen
Gezichtsherkenning gebeurt door algoritmes die in beelden zoeken naar patronen om gezichten te detecteren en vervolgens identificaties te voorspellen. Zo’n algoritme of programma noemen we een model. De werking ervan wordt bepaald door de data waarmee het getraind is. Als die data niet representatief zijn voor de mensen die het model moet herkennen, ontstaat er bias: bepaalde groepen personen worden minder goed herkend dan andere groepen. In FAME ontwikkelden of trainden we zelf geen algoritme, maar maakten we gebruik van bestaande modellen. We gebruiken het buffalo_l-model van InsightFace voor het detecteren van gezichten. Het kan ook leeftijd en geslacht toekennen aan gezichten, maar hiervan hebben we geen gebruik gemaakt. In het algemeen scoort het model goed op gezichten van personen uit de hele wereld, maar iets minder goed op gezichten van Oost-Aziatische personen.
Referentiesets en ‘name authorities’
In FAME maakten we wel gebruik van een referentieset: een set portretfoto’s waarvan we weten wie erop afgebeeld staat. Voor de herkenning van personen wordt namelijk clustering gebruikt. Gezichten die op elkaar lijken worden samengevoegd, en als een gezicht uit de referentieset zich in de groep bevindt, dan kan die benoemd worden. Het ADVN, FOMU en KOERS overwegen om elk zelf een ‘gezichtenboek’ te maken, een referentieset met portretbeelden van publieke personen die in de eigen collecties van belang zijn.
Goede referentiesets zijn cruciaal bij gezichtsherkenning, maar ze samenstellen vergt veel tijd. Twee factoren bepalen in hoeverre dat werk deels geautomatiseerd kan worden:
- de beschikbaarheid van open data, inclusief (portret)foto’s op het web;
- de mate waarin collectiebeherende organisaties data over personen in hun collectie gekoppeld hebben met externe authorities, zijnde door derden gecontroleerde termenlijsten (in dit geval gecontroleerde namenlijsten).
Open data die aanspreekbaar zijn via een application programming interface (API) maken het mogelijk om in bulk data op te vragen. De koppeling met externe authorities laat toe om personen uniek te identificeren zonder manuele controle of manueel opzoekwerk. Ze zijn vaak ook het ankerpunt om gelinkte foto’s op te vragen.
Hoe rijker de authorities zijn aan data over personen die relevant zijn voor Vlaamse collecties, hoe gemakkelijker personen ondubbelzinnig geïdentificeerd kunnen worden. Aan de verrijking van name authorities (gecontroleerde namenlijsten) kunnen we als cultureel-erfgoedsector werken door bestaande name authorities met behulp van data uit collectiebeherende organisaties uit te breiden. In FAME gebruiken we vooral Wikidata als gecontroleerde namenlijst. Een alternatief is de uitbouw van een Belgische of Vlaamse name authority.
Delen van referentiesets
Gezichtsherkenning kan in bepaalde gevallen ook efficiënter gebeuren als collectiebeherende organisaties hun referentiesets met elkaar zouden delen. Dezelfde personen kunnen in verschillende collecties voorkomen. Vermijden dat meerdere organisaties referentiefoto’s voor dezelfde personen verzamelen, kan dan een efficiënte werkwijze zijn. (Delen van) de FAME-referentiesets worden gebruikt in zowel het project Tegenlicht als het GIVE-metadataproject. In Tegenlicht wordt het referentiemateriaal van politici en activisten op basis van de ADVN-inventaris verder aangevuld met andere publieke personen.
Het delen van referentiesets kent wel enkele obstakels. Foto’s delen kan juridisch problematisch zijn wanneer ze auteursrechtelijk beschermd zijn. Bij gezichtsherkenning wordt op basis van foto’s per persoon een profiel opgemaakt van diens gezicht. Zo’n profiel wordt bepaald door onder andere de grootte en de plaats van de ogen, de neus en de mond van de persoon en wordt bewaard in de vorm van een vector. Het delen van het vectorprofiel van iemands gezicht is, in tegenstelling tot het delen van (auteursrechtelijk beschermde) foto’s, weinig problematisch, omdat er geen auteursrechtelijke handeling mee gemoeid is.
Foto’s die nog levende personen herkenbaar afbeelden vallen daarnaast echter ook onder de bescherming van persoonsgegevens. Dat bemoeilijkt eveneens het delen ervan. De gehanteerde workflows en gebruikte software bij diverse gezichtsherkenningsprojecten zijn technisch gezien ook niet volledig identiek en in de loop van de tijd aan verandering onderhevig. Het gevolg is dat vectorprofielen noch stabiel, noch interoperabel tussen verschillende workflows zijn. Zij zullen steeds opnieuw gecreëerd moeten worden.
Technische workflow van FAME
De gezichtsherkenningsworkflow van FAME omvatte vijf stappen voor foto’s:
- Met op artificiële intelligentie gebaseerde software en machine-learningtrainingsmodellen werden in foto’s gezichten gedetecteerd en gelokaliseerd. De gezichten werden uit de foto’s gekopieerd en apart opgeslagen.
- Vervolgens werden van ieder gezicht de features of kenmerken omgezet naar een wiskundig element. Alle features van een gezicht werden samengebracht in een 512-dimensionale vector.
- De vectoren maakten het mogelijk om gelijkaardige gezichten te clusteren. De vectoren uit stap 2 werden met elkaar vergeleken. Hiervoor gebruikten we de cosinusgelijkenis. Gezichten met een gelijkaardige vector werden in een cluster samengevoegd. Van deze gezichten vermoedden we dat ze eenzelfde persoon afbeelden.
- Per cluster werd gekeken welke gezichten afkomstig waren uit de referentiesets, en dus of hun metadata een naam bevatten. De naam van de persoon wiens vectorprofiel de cluster het dichtst benaderde, hebben we vervolgens toegekend aan alle gezichten in die cluster.
- Na het doorlopen van deze stappen werden de resultaten in een labelingtool opgenomen. Daarmee hebben medewerkers van de collectiebeherende organisaties de resultaten gevalideerd en extra clusters van onbekende gezichten benoemd. Clusters van onbekende gezichten ontstonden doordat de personen niet aanwezig waren in de referentiesets. Na het benoemen van zo’n cluster werden enkele gezichten uit deze groep aan de referentiesets toegevoegd, zodat ook die personen voortaan (semi) automatisch herkend worden.
De video’s werden eerst omgezet in een reeks van stilstaande beelden en doorliepen vervolgens dezelfde workflow. Video’s bestaan vaak uit 25 stilstaande beelden (frames) per seconde. Het volstond om uit een shot dat een persoon afbeeldt een beperkt aantal frames te analyseren. We wilden namelijk enkel weten van welk moment tot welk ander moment deze persoon in beeld komt. Met de software PySceneDetect werden shots gezocht in de video’s. Uit ieder shot werden drie willekeurige frames gekozen waarop de gezichtsherkenningsworkflow toegepast werd. Een video van 103.500 frames kon zo herleid worden tot 714 frames.
Validatie van gezichtsherkenningsresultaten
Collectiebeherende organisaties kunnen op verschillende manieren omgaan met de bekomen metadata:
- de resultaten volledig manueel valideren. Ze krijgen nadien dezelfde status als mensgecreëerde metadata;
- de resultaten beperkt manueel valideren en samen met de waarschijnlijkheidsscore van de matching opnemen in de metadata. Het GIVE-metadataproject zal op deze manier werken en steeds aangeven wanneer metadata met behulp van een algoritme gecreëerd werden. Idealiter wordt nadien de waarschijnlijkheidsscore als zoekparameter aangeboden, samen met de aanduiding of de identificatie manueel gevalideerd is;
- de resultaten manueel valideren door steekproefsgewijs de drempel te bepalen waarboven een matching met voldoende waarschijnlijkheid correct is om de nieuwe metadata op te nemen in het beheersysteem. Hierbij is het belangrijk om voor elk collectiestuk een zichtbaar onderscheid te maken tussen mensgecreëerde en automatisch gegenereerde metadata.
De volgende vragen bepalen welke aanpak een collectiebeherende organisatie het best kan toepassen: wat wil je aan de eindgebruiker presenteren? Hoeveel onzekerheid of ruis laat je toe en hoe toon je die? Wegen rijkere metadata op tegen valspositieve matches, met andere woorden gezichtsherkenningsresultaten die ten onrechte positief zijn? Manuele validatie vraagt mankracht en is bovendien niet altijd foutloos. Hoe ga je die manuele validatie uitvoeren: met collectiemedewerkers of goed begeleide vrijwilligers, of via crowdsourcing? Deze vraag hangt samen met hoe de organisatie gezichtsherkenning structureel wil inbedden in haar werking, met duidelijke rollen en verantwoordelijkheden voor de betrokken medewerkers.
Een andere reden om zoveel mogelijk data over de gecreëerde metadata op te nemen, is het in de toekomst kunnen herhalen van bepaalde processen. Mogelijk zorgt de evolutie van de technologie binnen enkele jaren voor workflows die een nog beter resultaat opleveren. Ook de referentieset zal soms (moeten) wijzigen, bijvoorbeeld omdat er nieuwe en betere foto’s ter beschikking komen, of omdat mensen ouder worden en de referentieset bij voorkeur de leeftijdsvariatie weerspiegelt.
Wegschrijven van gegenereerde metadata
Ook het wegschrijven van de verkregen metadata, zijnde de opname van de metadata in een beheersysteem, is een uitdaging. De gezichtsherkenningsresultaten zijn pas zinvol wanneer ze op een goede manier weggeschreven worden door de collectiebeherende organisaties. Of de gebruikte beheersystemen daar vandaag klaar voor zijn, hangt gedeeltelijk af van wat de organisaties precies willen wegschrijven. Dat kan variëren van een text string met iemands naam, over een unieke interne of externe identifier voor elke geïdentificeerde persoon (eventueel met waarschijnlijkheidsscore), tot aanvullend de exacte positie van de persoon in de foto of de tijdcode in de video waarop een bepaalde persoon voorkomt.
Een aansluitende vraag is of deze metadata eerder in het collectiebeheersysteem, het beeldbeheersysteem of een ander databeheersysteem opgenomen moeten worden, en hoe ze dan gestructureerd moeten zijn om de import ervan vlot te laten verlopen. Een belangrijk aspect daarbij is de keuze van het bestandsformaat. Bij de betrokken FAME-partners komen JSON, XML en CSV het vaakst naar boven als hanteerbare bestandsformaten om data in bulk in hun beheersystemen te importeren.
Technische infrastructuur en diensten
Niet alle erfgoedorganisaties beschikken over de kennis en middelen om zelf aan gezichtsherkenning te doen. Hoe kan de sector samenwerken om de technische infrastructuur en bijbehorende expertise te delen die daarvoor nodig is? Als we de technische vereisten voor een gedeelde technische infrastructuur kunnen bepalen, wordt het misschien mogelijk om deze zodanig te centraliseren dat verschillende organisaties er gebruik van kunnen maken. Dat zou ook de nood aan zeer specifieke expertise in elke collectiebeherende organisatie deels wegnemen. Technische infrastructuur delen impliceert een schaalvergroting, wat een sterke impact heeft op de relatieve prijs. Technologische componenten voor gezichtsherkenning evolueren razendsnel en vereisen continue investeringen. Een open vraag blijft of de schaal en de draagkracht van de Vlaamse cultureel-erfgoedsector volstaan om zo’n centrale infrastructuur op te zetten en te onderhouden.
Fysiek delen van infrastructuur is niet de enige optie. Het is ook mogelijk om gecentraliseerd gezichtsherkenning aan collectiebeherende organisaties aan te bieden als software as a service. Daarbij kunnen we ofwel bestaande diensten bij (vaak grote internationale) bedrijven aankopen, ofwel een eigen Vlaamse dienstverlening uitbouwen.
Bestaande producten hebben het voordeel dat ze gebruiksklaar en kwalitatief zijn. Een nadeel is hun gebrek aan transparantie. Zelf tools ontwikkelen laat toe om optimaal op onze noden in te spelen en op onze specifieke workflows te focussen, maar dat kost kennis en tijd. Het budget gaat dan niet naar de aankoop van software, maar naar de werktijd van vakmensen. Dat maakt wel bepaalde principiële keuzes mogelijk, bijvoorbeeld voor open source en ethische waarden. Cruciale afwegingen tussen beide opties zijn dus enerzijds de gewenste mate van controle en anderzijds de bruikbaarheid qua kwaliteit en schaal van off the shelf (kant-en-klare) oplossingen.
Conclusie
FAME heeft aangetoond dat gezichtsherkenning een positieve impact kan hebben op de aanmaak en aanvulling van beschrijvende metadata. In grote hoeveelheden foto’s zijn op een (semi)automatische manier de afgebeelde publieke personen geïdentificeerd. Mogelijk zouden collectieregistratoren nooit al die personen zelf hebben kunnen identificeren, omdat dat niet alleen veel tijd, maar ook veel kennis vergt.
Betekent dat dat iedere archiefinstelling, iedere bibliotheek of ieder documentatiecentrum onmiddellijk probleemloos gezichtsherkenning kan beginnen toepassen op eigen collecties? Nee, spijtig genoeg niet. Er is nog geen laagdrempelige kant-en-klare oplossing die door de meeste cultureel-erfgoedorganisaties individueel op een (kosten)efficiënte manier gebruikt kan worden. Een groot deel van de sector zal aangewezen zijn op overkoepelende oplossingen.
Maar dat betekent dat er eerst een (gedeelde) technische infrastructuur ontwikkeld moet worden die verschillende partijen op een laagdrempelige en (kosten)efficiënte manier kunnen gebruiken. Een extra uitdaging daarbij is dat de technologie nog evolueert, en dat de gecreëerde vectorprofielen meestal niet uitwisselbaar zijn tussen verschillende softwares. De vectorprofielen zullen telkens opnieuw gecreëerd moeten worden, ook voor de referentiesets. Niettemin zou in het delen van het referentiemateriaal een grote efficiëntiewinst kunnen schuilen, want de creatie van referentiesets kost veel tijd. Er zijn echter nog juridische drempels voor het delen van fotomateriaal en vectorprofielen.
En last but not least: gezichtsherkenning blijft op ethisch vlak een moeilijke kwestie. Los van wat louter wettelijk gezien (al dan niet) toegelaten is, dienen we als sector duidelijk te bepalen wat wij ethisch (on)aanvaardbaar vinden.