Publicatie:Named Entity Recognition en Named Entity Linking

Uit Meemoo Kennisbank
Naar navigatie springen Naar zoeken springen


Samenvatting

In de media is er veel aandacht voor het gebruik van artificiële intelligentie (AI). Vaak gaat het daarbij om controversiële toepassingen zoals ChatGPT. In bibliotheken, archieven en documentatiecentra gebruiken we AI al langer. Denk maar aan Optical Character Recognition (OCR), tekenherkenning om gedigitaliseerde documenten en publicaties om te zetten in doorzoekbare tekst. Of aan Speech-To-Text (STT), spraakherkenning om inhoudelijke metadata over audio- en videocollecties te verrijken. OCR en STT worden regelmatig gebruikt in combinatie met andere AI-toepassingen: Named Entity Recognition (NER) en Named Entity Linking (NEL).


Referentie
Titel Named Entity Recognition en Named Entity Linking (Voorkeurstitel)
Locatie META nummer 2023/6
Uitgever
Jaar van uitgave 2023
Rechten CC-BY-SA
Persistent ID


Auteur

Rony Vissers (meemoo, Vlaams instituut voor het archief)

Natural Language Processing en Machinelearning

NER en NEL toegepast: in een tekst wordt de persoonsnaam 'Sebastian Thrun' herkend en vervolgens gekoppeld aan informatie over Sebastian Thrun in dbpedia.org.

NER en NEL zijn gebaseerd op natural language processing (NLP). Die stelt computers in staat om natuurlijke taal te verwerken en te analyseren. Een natuurlijke taal is elke taal die zich, in tegenstelling tot artificiële talen zoals computertalen, op een natuurlijke wijze ontwikkeld heeft. Ze kan een schriftelijke of mondelinge vorm hebben.

Met NLP worden de regels van natuurlijke taal omgezet in statistische modellen. Op basis van deze modellen kunnen computers betekenis aan de taal ontlenen. Aanvullend helpt machinelearning de computers om te leren en zich te verbeteren met behulp van algoritmen en trainingsgegevens. Chatbots, virtuele assistenten zoals Siri en automatische vertaaltools gebruiken bijvoorbeeld NLP en machinelearning.

Named Entity Recognition

NER is de NLP-technologie die in teksten belangrijke stukjes informatie (entities) opspoort en classificeert in een reeks vooraf gedefinieerde categorieën. Mensen kunnen gemakkelijk entities detecteren die tot verschillende categorieën behoren, zoals personen, organisaties en locaties, maar computers moeten die entities eerst herkennen en vervolgens categoriseren.

Zo’n entity kan elk woord of elke woordgroep zijn die consistent verwijst naar hetzelfde. Named entities zijn de belangrijkste onderwerpen in een tekst, onder andere personen, organisaties en locaties, maar ook kunstwerken, abstracte begrippen en tijdsaanduidingen. Een NER-toepassing zal in een tekst bijvoorbeeld automatisch de woordgroep ‘Eddy Merckx’ detecteren en vervolgens classificeren als ‘Persoon’.

NER gebruikt algoritmes die werken op basis van grammatica, statistische NLP-modellen en voorspellende modellen. Het model wordt getraind met behulp van datasets die door mensen gelabeld zijn met vooraf gedefinieerde named entity-categorieën. Een NER-model kan dankzij de training op automatische wijze nieuwe ongestructureerde tekst analyseren en named entities categoriseren.

Named Entity Linking

NEL gaat nog een stapje verder. Het beperkt zich niet tot het detecteren van de woordgroep ‘Eddy Merckx’ en die te classificeren als ‘Persoon’, maar kent er vervolgens ook een eenduidige betekenis aan toe met behulp van een koppeling naar een online kennisbank (bijvoorbeeld Wikidata). Zo wordt voor iedereen duidelijk of de persoon ‘Eddy Merckx’ de wielerkampioen of de gelijknamige biljarter is.

Relevantie voor bibliotheken, archieven en documentatiecentra

Terwijl andere AI-toepassingen zoals teken- en spraakherkenning helpen om geschreven of gesproken tekst (van bijvoorbeeld gedigitaliseerde kranten of video’s) doorzoekbaar te maken, gaan NER en NEL hierin nog verder: ze verbeteren zowel de snelheid van het zoeken als de relevantie van de zoekresultaten. Ze doen dat door de belangrijkste stukjes informatie te detecteren, te categoriseren en er met behulp van een koppeling naar een externe kennisbron een eenduidige betekenis aan toe te kennen. Bovendien doen ze dat zoveel mogelijk op automatische wijze, dus zonder of met een beperkte afhankelijkheid van tijdrovende menselijke handelingen.