Publicatie:Vrouwen van papier. Vrouwendata activeren, brieffragmenten digitaliseren en kwaliteit garanderen
De negentiende-eeuwse dichter Guido Gezelle schreef met baronessen, burgerdames, dienstmeisjes, religieuzen, zakenvrouwen, fabrieksmeisjes, Engelse vrouwen en inwijkelingen, biechtelingen en familieleden. Via participatie realiseerde Vrouwen van papier een online brieveneditie in GezelleBrOn van deze boeiende egodocumenten, samen met de digitalisering van alle 2600 door Gezelle verknipte brieffragmenten uit het Gezellearchief. Met dit corpus kwamen we tegemoet aan het tekort aan genderhistorische bronnen. Het project werkte mee om het evenwicht te herstellen tussen mannen en vrouwen in biografische databanken en bronnen. We droegen ons steentje bij aan het gendergap-project van Wikipedia en gaven de belangrijkste vrouwen een eigen pagina. In het Gezellejaar 2024 volgde een tentoonstelling en publicatie. Zo maakten we vrouwelijk erfgoed relevant voor een breed publiek. Het project kon gerealiseerd worden door tweejarige subsidiëring van Vlaanderen met de ondersteuning en hulp van diverse partners.
Titel | Vrouwen van papier. Vrouwendata activeren
brieffragmenten digitaliseren en kwaliteit garanderen (Voorkeurstitel) |
Locatie | |
Uitgever | |
Jaar van uitgave | 2024 |
Rechten | CC-BY-SA |
Persistent ID |
Auteur(s)
Collyn Verlinde (Openbare Bibliotheek Brugge – Guido Gezellearchief)
Rony Vissers (meemoo, Vlaams instituut voor het archief)
Projectteam
Openbare Bibliotheek Brugge – Guido Gezellearchief (Els Depuydt projectleider; Liesbeth Langouche medewerker editie en redactie; Collyn Verlinde medewerker digitalisering en databeheer) in samenwerking met het CTB-KANTL, het Guido Gezellegenootschap en prof. Piet Couttenier in naam van de Universiteit Antwerpen.
Projectdoelstelling
Sinds 2017 werkt het Guido Gezellearchief aan een online editie van de briefwisseling van Guido Gezelle. Omwille van de omvang van het brievencorpus, vertalen we dit naar meerdere ‘kleinere’ projecten, zoals Vrouwen van papier. In het kader van het Vrouwen van papier-project lag de focus op twee moeilijke deelcollecties binnen die briefwisseling: brieven van en aan vrouwen, die historisch onderbelicht zijn gebleven, en brieven die Gezelle zelf heeft verknipt voor hergebruik. Daarnaast greep de Openbare Bibliotheek Brugge (OBB) dit project aan om de digitalisering verder te professionaliseren. In eerste instantie is de doelstelling van dit project het ontsluiten van de briefwisseling in het eigen brievenplatform GezelleBrOn. Specifiek voor de erfgoedsector ligt de scope hieronder op de drie bovenvermelde punten: Linked Open Data, interne digitalisering van brieffragmenten en het opstarten van een eigen kwaliteitscontrole.
- Linked Open Data: Gezelle correspondeerde met meer dan 200 vrouwen van alle lagen van de maatschappij. In de literatuur bleven deze vrouwen echter onderbelicht. Daarom wilden we de data die we verzamelden over deze vrouwen ook actief delen. Voor de werking van ons brievenplatform werkten we al met verschillende registers. Het grootste van deze registers is ons personenregister. Daarin nemen we niet alleen alle correspondenten van Gezelle op, maar ook iedereen die vermeld staat in de brieven zelf. De vrijwilligers doen zelf de nodige opzoekingen voordat deze personen in het register worden opgenomen. Desalniettemin is er een grote variatie in de hoeveelheid data die beschikbaar is per persoon, en helaas is niet iedere naam definitief identificeerbaar. De impact van deze data bleef echter beperkt tot ons brievenplatform zelf: de gegevens stroomden niet verder door. Bijgevolg zat er dus veel origineel biografisch opzoekwerk vast in onze informatiesilo. Enerzijds heb we daarom de vrouwendata laten doorstromen naar ODIS. Daarnaast wilden we ook deze data delen met het brede publiek en hoopten we om de data zo duurzaam te activeren. Daarvoor keken we in de richting van de Wikimedia-platformen om onze informatiesilo te transformeren naar Linked Open Data.
- Digitalisering: Gezelle was een veelschrijver: poëzie, proza, journalistiek, taalkunde, brieven… Hij had daarvoor veel papier nodig en dat betekende dat brieven die hij zelf minder interessant vond, werden verknipt. Die knipsels gebruikte hij voor zijn taalkundige notities. Veel brieffragmenten kwamen zo terecht in zijn 150.000-fiches-tellende Woordentas. In totaal spreken we over ongeveer 2100 brieven die werden verknipt tot ca. 2700 fragmenten. Van 1550 van die brieven is slechts één fragment geïdentificeerd, 160 zijn gedeeltelijk gereconstrueerd en ongeveer 390 zijn volledig gereconstrueerd. Daarnaast namen we ook volledige brieven mee die integraal in de woordenverzamelingen werden bewaard; dat gaat om ca. 500 bijkomende brieven, vaak briefkaarten. De brieffragmenten zitten verspreid over het volledige archief. De reconstructies zijn enkel intellectueel, fysiek zit alles nog op de vindplaats. Bijgevolg is er dus het nodige puzzelwerk voor het digitaliseren van de gereconstrueerde brieven. We bekeken of hier een digitaal alternatief voor was.
- Kwaliteitscontrole: Bij aanvang van het project was kwaliteitscontrole de zwakste schakel bij het digitaliseringsluik. In eerste instantie waren geen kwalitatieve testkaarten beschikbaar en werd er vertrouwd op externe kennis en expertise voor de correcte kalibratie van de digitaliseringsapparatuur. De interne kennis over de Metamorfoze-richtlijnen was zeer beperkt, en een grondige kwaliteitscontrole behoorde nog niet tot de mogelijkheden. Dit zorgde voor de nodige problemen en een duurzame oplossing drong zich snel op.
Conclusies en aanbevelingen
- Trek externe expertise aan in de voorbereidende fase van het project. Het is onmogelijk om voor alles interne expertise te hebben. Door die tijdig aan te spreken kan je zoveel mogelijk obstakels vermijden, in plaats van ze tijdens het project te moeten oplossen.
- Zorg voor een goede opleiding en begeleiding bij wikischrijfsessies, maar ook op de ondersteuning van de vrijwilligers na de schrijfsessie als hun artikels voor verwijdering worden genomineerd. De samenwerking met Wikimedia België is dan ook essentieel, net zoals de rol van vrijwilligers: zonder hen zou er geen Wikidata en Wikipedia-aspect geweest zijn aan ons Wikimedia-luik.
- Registreer (biografische) data vanaf het begin op een gestructureerde manier. De transformatie van niet-gestructureerde data naar Linked Open Data is een zeer tijdrovend proces, zeker als dit manueel moet gebeuren. Baseer eventueel jouw registratiemethode op de gegevensvelden van ODIS of Wikidata.
- Voer testcases uit bij de digitalisering van gefragmenteerd materiaal voordat je je toelegt op één bepaalde methode. Afhankelijk van het doel van het digitaliseringsproject kan geopteerd worden voor een IIIF-oplossing, digitale of fysieke reconstructie. Denk hierbij in eerste instantie aan het onmiddellijke gebruik van de beelden en de uiteindelijke eindgebruiker. Er is een onderscheid tussen de optimale digitaliseringsmethode voor het object en de optimale digitaliseringsmethode binnen een project.
- Kwaliteitscontrole moet voor de start van de digitalisering op punt staan. Dit is niet iets dat in één dag geregeld wordt. Doorheen de operationele fase van de digitalisering vonden we nog regelmatig manieren om de kwaliteitscontrole bij te schaven, of de procedure te optimaliseren. Kwaliteitscontrole is een proces, en niet een product, net zoals digitalisering.
Projectverloop
Linked Open Data via Wikimedia-platformen
Onze focus lag bij drie Wikimedia-platformen: Wikidata, Wikipedia en Wikimedia Commons. De data uit ons personenregister wilden we via OpenRefine importeren naar Wikidata. Vervolgens konden we de ‘interessantste’ vrouwen voorzien van een Wikipediapagina. Tot dat doel zou er ook een kleine hoeveelheid beeldmateriaal opgeladen worden naar Wikimedia Commons, zodat dit de Wikipediapagina’s kon ondersteunen. Zeker voor het Wikidata-luik was de realiteit een stuk ingewikkelder dan gepland. Doorheen het proces konden we rekenen op de hulp en ondersteuning van meemoo en Wikimedia België.
Wikidata, van spreadsheet naar Linked Open Data
Het Guido Gezellearchief registreert informatie over alle briefcorrespondenten van Gezelle en iedereen die vermeld staat in de brieven in het personenregister, dat de vorm heeft van een Google Spreadsheet. De data kan in dat bestandsformaat niet beschikbaar worden gemaakt als Linked Open Data. Eens ze is opgeladen in Wikidata, wordt ze wel beschikbaar als Linked Open Data. Iedereen heeft dan niet alleen vrije toegang tot de data, maar kan er dankzij de CC0-licentie ook zelf mee aan de slag. Wikidata is voorzien van zowel een REST API als een SPARQL endpoint. Met de REST API kunnen gebruikers met behulp van hun computerdata uit Wikidata opvragen, toevoegen, verwijderen en bewerken. Met de SPARQL endpoint kunnen ze complexe query's (zoekopdrachten) uitvoeren op de (als triples gestructureerde) data in Wikidata. Dit biedt ontwikkelaars/professionals veel kracht en flexibiliteit bij het maken van applicaties die gebruik maken van de data en bij het uitvoeren van zoekopdrachten op de data.
Een grote uitdaging bij het opladen van de data uit het personenregister naar Wikidata was de beperkte structurering van de data in de Google Spreadsheet. Die bevat wel velden zoals ‘naam’ (familienaam plus voornaam), ‘naamvarianten’, ‘geslacht’, ‘geboorteplaats’, ‘geboortedatum’, ‘sterfplaats’, ‘sterfdatum’ en ‘beroep’. Spijtig genoeg is veel andere interessante informatie over de personen vaak opgenomen in het vrijtekstveld ‘bio’. In dat veld bevindt zich vaak informatie over bijvoorbeeld hun relatie tot Guido Gezelle en/of tot andere personen uit het personenregister, of over allerhande andere familiale en professionele relaties. Linked Data (en dus ook Wikidata) lenen zich uitstekend om dergelijke relaties te documenteren en te visualiseren. Omdat de gegevens in het vrijtekstveld ‘bio’ zo sterk verschillen van de ene persoon tot de andere zou het (semi)automatisch structureren van deze data zeer veel tijd gekost hebben en misschien zelfs niet altijd mogelijk geweest zijn. Daar werd besloten om deze data niet via OpenRefine, maar wel manueel in te voegen in Wikidata en ze daar te structureren. Oorspronkelijk was het de bedoeling om dit enkel te doen voor de paar honderd vrouwen waarmee Guido Gezelle heeft gecorrespondeerd.
Bij het opladen van deze data bleek als snel dat er niet alleen relaties waren tussen de verschillende vrouwelijke briefschrijvers, maar ook relaties met mannelijke briefschrijvers, met personen die onderwerp waren van de brieven en met andere personen die vermeld werden in het vrijtekstveld ‘bio’. Het werd duidelijk dat indien het opladen niet beperkt zou blijven tot gegevens over de vrouwelijk briefschrijvers maar uitgebreid zou worden tot andere personen uit het Personenregister, het mogelijk zou worden om in Wikidata de leefwereld van Guido Gezelle vast te leggen met behulp van netwerken van familiale, professionele, intellectuele en andere relaties.
Meemoo begon met het manueel invoeren van de data in februari 2023. De ene keer werden bestaande Wikidata-records aangepast en uitgebreid, de andere keer werden volledig nieuwe Wikidata-records gecreëerd wanneer nog geen Wikidata-record over de persoon (of ander onderwerp) bestond. In de periode tot 15 september 2024 deed meemoo zo ongeveer 120.000 bewerkingen in Wikidata. Voor Vrouwen van Papier werd er in totaal data toegevoegd in 1.045 Wikidata-records (581 records over vrouwen en 464 records over mannen). Niet al die vrouwen (en mannen) zijn briefcorrespondenten. De andere personen zijn bijvoorbeeld familieleden, vrienden, kennissen of collega’s. Voor leraars van het Sint-Lodewijkscollege werden 156 Wikidata-records verrijkt, voor de leden van de KANTL werden in 97 Wikidata-records verrijkt en met betrekking tot Brugse drukkers werden 24 Wikidata-records verrijkt. Daarnaast werden ook in 1.801 andere Wikidata-records data toegevoegd. Dit betekent dat de 120.000 bewerkingen betrekking hadden op meer dan 3.000 verschillende Wikidata-records.
Een eerste belangrijke meerwaarde van het toevoegen van de gegevens is dat nu alle in Wikidata ingevoerde data automatisch beschikbaar is in verschillende talen. Een tweede belangrijke meerwaarde is dat sommige data meteen zichtbaar is in infoboxen (rechts bovenaan) in de Wikipedia-pagina’s over vrouwelijke briefcorrespondenten, maar ook in de Wikipedia-pagina’s over andere personen. Enkele voorbeelden:
- Mary Constantia Clifford: https://nl.wikipedia.org/wiki/Mary_Constantia_Clifford
- Anna Demets: https://nl.wikipedia.org/wiki/Anna_Demets
- Monica Devriese: https://nl.wikipedia.org/wiki/Monica_Devriese
- Louise Gezelle: https://nl.wikipedia.org/wiki/Louise_Gezelle
- Lucy Weguelin: https://nl.wikipedia.org/wiki/Lucy_Weguelin
- James Weale: https://nl.wikipedia.org/wiki/James_Weale
- Gustaaf Verriest: https://nl.wikipedia.org/wiki/Gustaaf_Verriest
- Karel de Gheldere: https://nl.wikipedia.org/wiki/Karel_de_Gheldere
- Hendrik Karel Van Doorne: https://nl.wikipedia.org/wiki/Hendrik_Karel_Van_Doorne
- Caesar Gezelle: https://nl.wikipedia.org/wiki/Caesar_Gezelle
Bovendien is alle in Wikidata ingevoerde data nu als Linked Open Data beschikbaar voor onderzoek en andere vormen (her)gebruik. Om een overzicht van de ingevoerde data zelf te bieden en de (onderzoeks)mogelijkheden met de data te demonstreren, heeft meemoo een uitgebreide reeks onderzoeksvragen uitgeschreven in de vorm van SPARQL-queries. De resultaten van deze queries zijn beschikbaar als downloadbare datasets en als grafische representaties. Enkele voorbeelden:
- Een overzicht van alle entiteiten die in Wikidata aan Guido Gezelle zijn gekoppeld (met weergave van foto indien beschikbaar): https://w.wiki/6pyH;
- Een overzicht van alle relaties tussen alle personen waarover data is ingevoerd in het kader van Vrouwen van Papier en de voorgaande projecten m.b.t. de briefcorrespondentie van Guido Gezelle: https://w.wiki/Ajva;
- Een overzicht van de studenten van Guido Gezelle (met weergave van foto indien beschikbaar): https://w.wiki/9Q2g;
- Een overzicht van de familieleden van William Henry James Weale (incl. zijn huwelijkspartner, broers, zussen, kinderen en andere verwanten) die brieven aan Guido Gezelle hebben geschreven waren (weergave als tabel): https://w.wiki/9YzQ;
- Een overzicht van de personen die brieven aan Guido Gezelle hebben geschreven en die het Sint-Lodewijkscollege als werkgever hadden (met weergave van foto indien beschikbaar): https://w.wiki/9P$S;
- Een overzicht van de personen die brieven aan Guido Gezelle hebben geschreven en die in de periode 1870-1880 het Sint-Lodewijkscollege als werkgever hadden (met weergave van foto indien beschikbaar): https://w.wiki/9P$P;
- Een overzicht van de personen die brieven aan Guido Gezelle hebben geschreven en die Roeselare als werklocatie hadden: https://w.wiki/9P$g;
- Een overzicht van de vestigingsplaatsen van de missionarissen die brieven aan Guido Gezelle hebben geschreven, met aanduiding van het aantal corresponderende missionarissen per vestigingsplaats (weergave als tabel): https://w.wiki/9P$8;
- Een overzicht van de personen die brieven aan Guido Gezelle hebben geschreven en die voor één of meerdere van de tijdschriften hebben geschreven waarvoor hij ook heeft geschreven (weergave als tabel): https://w.wiki/9P$K;
- Een overzicht van het geboorteland van de personen die brieven aan Guido Gezelle schreven, met aanduiding van het aantal correspondenten per land (weergave als tabel): https://w.wiki/9Z83.
Meemoo zal ook na afloop van het project Vrouwen van Papier nog verder data uit het personenregister aan Wikidata toevoegen. Niet alle beschikbare data kon door het tijdsintensieve karakter van het manueel opladen tijdens het project worden toegevoegd.
Wikipedia, samen/tegenwerken met de gemeenschap
Naar het ruime publiek toe blijft Wikipedia het meest gebruikte luik van de Wikiplatformen. Tegelijkertijd is het ook het platform met de hoogste barrière om iets nieuws aan toe te voegen. Zaken die niet encyclopedie-waardig worden geacht, verdwijnen onverbiddelijk van het platform. Bijgevolg moesten we op voorhand een selectie maken van mogelijke onderwerpen. De criteria waren tweezijdig: hoeveel is er geschreven over de vrouw, en welke impact had de vrouw. Het was daarbij belangrijk om de nadruk te leggen op de vrouw als zelfstandige actor, en niet als een speler in functie van het leven Gezelle. Die selectie gebeurde door het wetenschappelijk personeel, die ook op dagelijkse basis bezig was met de briefwisseling van Gezelle. Daaruit kwam een lijst van mogelijke vrouwen om artikels over te schrijven. De lijst werd later uitgebreid omdat er meer vrijwilligers dan onderwerpen waren. We waren ons er wel van bewust dat er hierdoor een risico op verwijdering zou zijn voor de uitgebreide selectielijst.
We hebben twee wikischrijfsessies georganiseerd. Allereerst een interne testcase. Daarvoor konden we rekenen op personeelsleden van de OBB, alsook enkele medewerkers/vrijwilligers van de Erfgoedbibliotheek Hendrik Conscience. Hierbij kregen we een korte opleiding en begeleiding door Wikimedia België. Op basis van de lessen die we uit de oefensessie hebben getrokken, hebben we dan op 8 maart, op Internationale Vrouwendag, een publieke schrijfsessie georganiseerd met partners over heel Vlaanderen, gegroepeerd in 4 fysieke locaties (Brugge, Gent, Antwerpen en Leuven). Bij alle partners was het de opzet om voor vrouwen uit hun eigen collectie Wikipedia-artikels te schrijven en/of bestaande artikels te verbeteren. De diverse sessies werden begeleid door vrijwilligers van Wikimedia België, of door ervaren Wikipedianen binnen de deelnemende organisaties.
Voor de schrijfsessies was de hulp van Wikimedia België onmisbaar. Tegelijkertijd merkten we achteraf dat de Wikipedia-gemeenschap een heel meerstemmig gegeven is. Bij beide sessies waren er binnen de 24 uur verschillende artikels genomineerd voor verwijdering. Tot onze verbazing waren dit soms onderwerpen die we als ‘veilig’ beschouwden, terwijl de ‘risicovolle’ onderwerpen zonder discussie werden aanvaard. De argumentatie ging vaak over de encyclopedie-waardigheid van de artikels, of over het gebrek aan bronnenmateriaal. Dit zorgde voor enige verwarring omdat binnen een Wikipedia-context ‘bronnenmateriaal’ slaat op secundaire bronnen, en niet op primaire bronnen zoals in een academische context. Primaire bronnen worden vaak niet aanvaard, net omdat origineel onderzoek niet thuishoort op Wikipedia. Dat zorgt in zekere mate wel voor een vicieuze cirkel: over ‘verloren’ thema’s en personen is niet veel literatuur voorhanden, waardoor ze niet op Wikipedia kunnen komen en dus minder kans hebben om onder de aandacht te komen staan. De discussies over het al dan niet behouden van sommige pagina’s stonden soms heel scherp, en kaderden deels in de frustratie die occasioneel heerst tussen Vlaamse en Nederlandse Wikipedianen. Dat de discussies soms werden gereduceerd tot de nationaliteit of het geslacht van de deelnemers werkte niet bevorderlijk. Tegelijkertijd waren nominaties voor verwijdering wel een enorme drijfveer om artikels te verbeteren, zelfs door mensen die voorheen niets met het project hadden te maken. De procedures van Wikipedia zijn dus zeker positief voor de kwaliteit van het platform, maar de discussies die erachter schuilen kunnen soms demotiverend werken, zeker voor nieuwere gebruikers. Uiteindelijk is maar een zeer beperkt aantal pagina’s verwijderd, dus de netto balans van de ervaring was zeker positief.
Bij de eerste schrijfsessie werden, de bijdragen van externen even buiten beschouwing gelaten, werden 8 pagina’s aangemaakt, waarvan 3 uiteindelijk werden verwijderd. Samen hadden deze 5 pagina's samen bijna 2000 weergaven bij het opladen van deze case, met Louise Gezelle (632+ weergaven) als koploopster. Voor de schrijfsessie op Internationale Vrouwendag werden, opnieuw de deelnemende partners even buiten beschouwing gelaten, werden 9 pagina’s voor personen binnen het Vrouwen van papier-project aangemaakt. Deze werden allen behouden, mits de nodige aanpassingen, maar één van de pagina’s van de interne schrijfsessie werd in de nasleep van deze schrijfsessie verwijderd. Alles samen hebben deze 9 pagina’s meer dan 1450 weergaven, met Savina de Gourcy Serainchamps als meest bezochte pagina (480+ weergaven).
Het is heel belangrijk om een eigen projectpagina aan te maken voordat er grote operaties worden uitgevoerd op de Wikimedia-platformen. Zo kunnen eventuele discussies alvast vanuit een geïnformeerd startpunt vertrekken. Via dergelijke projectpagina’s kan ook duidelijk gecommuniceerd worden over de doelstelling en samenhang van een project. Hou er wel rekening mee dat je een Wikipedia-luik binnen een erfgoedproject goed uitwerkt. De Wikipedia-gemeenschap zal het Wikipedia-luik namelijk beoordelen op de eigen verdiensten, en niet op de samenhang binnen een groter erfgoedproject.
Wikimedia Commons
Omdat we rond een ondervertegenwoordigde groep werkten, botsten we al snel op het feit dat ze ook op vlak van beeldmateriaal ondervertegenwoordigd waren. Van de vrouwen die geselecteerd waren voor Wikipedia, was het uitgangspunt om ook telkens twee afbeeldingen op te laden: een foto en een brief. Bij een deel van de vrouwen was geen fotomateriaal of schilderij voorhanden, en werd gezocht naar alternatieven, zoals doodsprentjes en zakenkaartjes. Daarbij was het steeds belangrijk om rekening te houden met het auteursrecht. Een werk is in ons land publiekdomein 70 jaar na het overlijden van de maker. Voor het grootste deel van ons fotomateriaal was de maker onbekend of hadden we enkel de naam van de fotograaf, en geen verdere biografische gegevens. Frequent wisten we niet wanneer de foto was gemaakt. Daarom hanteerden we 1900 als richtdatum. Het uitgangspunt hier was een 20-jarige fotograaf die nog 50 jaar zou leven, en waarna nog 70 jaar auteursrechten heersten, wat neerkomt op ca. 120 jaar. Foto’s van vrouwen die waren overleden voor 1900 waren dus geen probleem. Ongedateerde foto’s van vrouwen die overleden na 1900 waren moeilijker. Bij die foto’s waren er twee criteria: de representativiteit van de beelden voor de vrouw, en de geschatte creatiedatum van de foto. Op het einde van die oefening kwamen we tot een lijst van met 51 afbeeldingen die we wilden opladen.
We hebben deelgenomen aan de Uploadworkshop en aan de Coachingdag tools voor digitaal collectiebeheer van meemoo. Zo kregen we een duidelijk beeld van de basisvereisten en -problemen bij het opladen van beelden naar Wikimedia Commons, alsook diverse manieren om dit de doen. Zelf hebben we twee methodes gebruikt: de ingebouwde Uploadwizard van Wikimedia Commons enerzijds, en opladen via OpenRefine anderzijds. Voor het opladen van kleine hoeveelheden beeldmateriaal, wat bij ons het geval was, zouden we zeker aanraden om met de Uploadwizard te werken, omdat dit een lagere leercurve heeft. Er is wel meer manueel werk nodig dan bij OpenRefine, maar qua tijdsbesteding moesten we meer tijd steken in het optimaliseren van de Wikitext in OpenRefine dan in het metadateren van de beelden in de Uploadwizard.
Digitalisering van verknipte brieven
Verkenning van digitale reconstructie
Omdat de verschillende brieffragmenten verspreid zaten over het archief zou de fysieke reconstructie en digitalisering van die stukken heel tijdrovend en ingewikkeld zijn. Sowieso ging het om een digitaliseringsproject dat de capaciteiten van de reguliere werking zou overstijgen. Daardoor rees de vraag of de reconstructie niet digitaal kon gebeuren. Via het Mmmonk-project had de OBB al expertise opgebouwd over IIIF, en in theorie zou dit een bruikbaar middel zijn om de individuele fragmenten digitaal samen te brengen. In de praktijk was IIIF geen haalbaar spoor: het was te hoogdrempelig voor onze vrijwilligerswerking en er waren geen integratiemogelijkheden met ons brievenplatform. Daardoor bleef het spoor over om de fragmenten digitaal te reconstrueren in beeldbewerkingssoftware. Op kleine schaal voerden we testcases uit zodat we konden zien of dit spoor optimaal was, of dat fysieke reconstructie toch meer aangewezen was.
De wisselvallige prestaties van de scanapparatuur aan het begin van het project legden al onmiddellijk één van de grootste zwaktes van dit spoor bloot: de kwaliteit van de scans moet zeer consequent zijn om achteraf de fragmenten samen te voegen. Omdat de fragmenten zo verspreid zaten over het archief was er geen garantie dat de fragmenten van één brief tijdens dezelfde sessie, of zelfs dezelfde week, werden gedigitaliseerd. De werklast van de digitale reconstructie was ook variërend. Allereerst was er de drempel om met de beeldbewerkingssoftware te leren werken, in ons geval was dit Adobe Photoshop. Daarnaast nam de duur van een reconstructie exponentieel toe, naarmate de brief uit meerdere bladzijden en fragmenten bestond. Een brief van één à twee bladzijden heeft meestal maar twee gereconstrueerde beelden nodig: een recto- en versozijde. Een brief in bifolium-formaat (één van de meest frequente formaten) heeft dan alweer zes gereconstrueerde beelden nodig: vier unifolio beelden voor de individuele bladzijden en twee bifolio beelden voor de recto en versozijden van het ganse vel. Dat laatste was essentieel omdat bij het schrijven vaak van de logische volgorde van de bladzijden werd afgeweken, en omdat de tekst soms overliep over de bladzijden heen. De tijdswinst ten opzichte van fysieke reconstructies was in dat geval zelfs negatief. Na de testcase werden de voor- en nadelen van de digitale reconstructie opgelijst naast die van fysieke reconstructie:
Fysieke reconstructie | Digitale reconstructie | |
Voordelen |
|
|
Nadelen |
|
|
Uiteindelijk kozen we voor fysieke reconstructie voor de digitalisering van de verknipte brieven. Uit bovenstaande tabel konden we al opmaken dat digitale reconstructie minder voordelen en meer nadelen had, maar er waren twee zaken doorslaggevend: (1) Het brievenmateriaal was te complex om een vlotte workflow op te stellen voor de digitale reconstructie. (2) Het digitaliseringstraject liep gelijktijdig met het vrijwilligersluik: de vrijwilligers hadden op korte termijn meer beeldmateriaal nodig om aan verder te werken. De digitale reconstructie stond zulke quick wins niet toe, omdat de reconstructies pas op het einde van het ganse digitaliseringsproces bruikbaar zijn.
Voorbereiding voor fysieke reconstructie
Met de uiteindelijke keuze voor de fysieke reconstructie moesten we dit spoor nog optimaliseren. Voor de aanvang van het project waren al enkele gereconstrueerde brieven gedigitaliseerd, maar dit bleek een zeer moeizaam proces. Op vlak van pure digitalisering was er eigenlijk weinig om te optimaliseren: veel manieren om vlak negentiende-eeuws briefmateriaal te digitaliseren op een boekenscanner zijn er niet. De optimalisatie moest daarom vooral plaatsvinden in de voorbereiding, en in het bijzonder bij de digitaliseringslijsten.
Alle briefreconstructies zijn beschreven in ons erfgoedbeheersysteem. De eerste stap was om uit dat systeem exports te maken van alle fragmentaire en gereconstrueerde brieven. Door de uitgebreide objectbeschrijving konden we dit materiaal al in diverse exports sorteren, nl. losse brieffragmenten, volledige reconstructies, onvolledige reconstructies en volledige brieven in de woordverzamelingen. Via Excel, maar in principe kon dit ook via OpenRefine, hebben we dan enkele simpele transformaties uitgevoerd. Zo konden we de samengestelde bestandsnamen (‘Fragment A + Fragment B + Fragment C…) reduceren tot de onderliggende bestandsdelen. Het resultaat was een tabel die eruitzag zoals hieronder.
Plaatsnummer | Fragment1 | Fragment2 | Fragment3 | Fragment4 |
3322, S fiche 106 + 3322, B fiche 85 + 3322, Z fiche 68 | 3322, S fiche 106 | 3322, B fiche 85 | 3322, Z fiche 68 | |
3322, B fiche 100 + 3322, T fiche 27 | 3322, B fiche 100 | 3322, T fiche 27 | ||
3586, Blinkaard geld + 3586, stijke + 3586, ontstijven + 3586, seule | 3586, Blinkaard geld | 3586, stijke | 3586, ontstijven | 3586, seule |
3322, K fiche 46 + 3322, D fiche 1 + 3315, fiche 65 + 700 | 3322, K fiche 46 | 3322, D fiche 1 | 3315, fiche 65 | 700 |
Via die lijsten groepeerden we vervolgens de brieven naar de diverse fysieke deelverzamelingen. De lijsten werden ten slotte nog gesorteerd naar een logische volgorde (numeriek en alfabetisch). Op basis van die digitaliseringslijsten konden we de gereconstrueerde brieven in een optimale volgorde digitaliseren, waarbij we ook zo weinig mogelijk archiefstukken op een gegeven moment uit het depot moesten halen. Door alles ook zoveel mogelijk te groeperen per fysieke deelverzameling beperkten we ook het risico op fouten tijdens het hanteren van de fragmenten.
Voor de eigenlijke uitvoering van de digitalisering was geen speciale methodologie nodig. We hadden het geluk dat we vanuit het voormalige Centrum voor Gezellestudie fotokopieën van elke gekende reconstructie hadden ontvangen. Bijgevolg konden we dus de reconstructies steeds toetsen aan die fotokopieën. De brieven werden fysiek gereconstrueerd op het scanoppervlak, en vervolgens werden de nodige opnames gemaakt (unifolio, en indien nodig bifolio). De enige opmerking hier is dat we ook steeds elk fragment nog eens individueel digitaliseerden, los van de reconstructie. Al het gescande materiaal registreerden we dan nog in een overzichtsdocument, waarbij we bijhielden hoeveel scans en fragmenten bij elk record hoorden. Een voorbeeld van het registratiedocument kun je hier vinden. Een dergelijk overzicht is een handig controlemiddel om na te gaan of alles effectief is gedigitaliseerd, maar ook om bij te houden welke stukken in welke fase van de nazorg zitten. In het overzichtsdocument registreerden we volgende gegevens:
- Gegevens uit de digitaliseringslijsten (deze gegevens haalden we rechtstreeks uit een export)
- Recordnummer: het unieke nummer in de databank
- Plaatsnummer: het plaatsnummer van het stuk
- Titel: beschrijving van het stuk
- Frag/vol: toelichting bij de fysieke toestand van het stuk
- Gegevens over de digitalisering (deze gegevens registreerden we tijdens en na het digitaliseren)
- Aantal scans per brief
- Aantal fragmenten per brief
- Methode van reconstructie: fysiek of digitaal, indien van toepassing
- Datum van de scan: datum waarop de digitalisering plaatsvond. Indien een stuk op 2 dagen is gedigitaliseerd, werd de recentste datum genomen.
- Datum van reconstructie: enkel indien de datum van reconstructie verschilt van de datum van scan
- Scanner: personeelslid dat de scan heeft gemaakt
- Reconstructor: personeelslid dat de digitale reconstructie heeft uitgevoerd, indien van toepassing
- Opvolging van de scans (dit registreerden we tijdens de nazorg van de beelden)
- JPG: is er reeds een raadplegingskopie in JPG-formaat aangemaakt
- VUBIS: zijn de scans gekoppeld aan het erfgoedbeheerssysteem
- Toegevoegd aan servers: is de raadplegingskopie opgeladen zodat het beschikbaar is voor het publiek
- TIFF: is de TIFF naar de permanente bewaarlocatie verplaatst
- Opmerking: zijn er eventuele problemen met de scans
- Editie: is het beeld beschikbaar voor editering door de vrijwilligers van het brievenproject.
Kwaliteitscontrole
Professionalisering
Door de twijfels die er waren over de kwaliteit van de scanapparatuur was het professionaliseren van de kwaliteitscontrole één van de speerpunten in fase 1. Aanvankelijk maakten we gebruik van een ColorChecker Classic in combinatie met de gratis, en ondertussen onbeschikbare, DeltaE-tool. Die eerste resultaten waren zeer wisselvallig, maar waren bij nadere inspectie ook niet altijd intern consistent: éénzelfde opname van een testkaart gaf soms verschillende resultaten wanneer dit meermaals door de DeltaE-tool werd gehaald. Het gebrek aan een referentiebestand voor onze ColorChecker hielp hier zeker niet mee.
De duurzame professionalisering van de kwaliteitscontrole begon zich daarom nog meer op te dringen. In eerste instantie wonnen we advies in bij meemoo en de KBR, maar voor het grootste deel van het proces hebben we beroep gedaan op Hans Van Dormolen van HIP. Via meerdere plaatsbezoeken, overleggen en een opleiding zijn we zo gekomen tot een kwaliteitscontrole die doorheen de productiefase van de digitalisering werd gehanteerd.
Op vlak van materiaal maken we gebruik van 3 targets (= tekstkaarten): een Munsell Linear Gray Scale (MLGS), een ColorChecker Digital SG (DCSG) en een Universal Test Target A2-formaat (UTTA2). Deze targets zijn opgemeten, wat wil zeggen dat de exacte kleurwaarden van ieder element gekend zijn, waardoor de kleurafwijkingen van de kaart zelf geen invloed meer hebben op de kwaliteitscontrole. Al die informatie wordt opgeslagen in een referentiebestand, of reference file. Daarnaast gebruiken we ook 2 softwares in de kwaliteitscontrole: Adobe Photoshop en de OS QM-tool. Voor organisaties met beperkte digitaliseringsopstellingen is de QM-tool een goede prijs/kwaliteitsbalans, maar de gebruiksvriendelijkheid laat wel te wensen over. Zeker voor de opstart is de QM-tool een moeilijke tool. Het is wel heel flexibel, wat betekent dat quasi alle waarden voor iedere meting kunnen worden aangepast. Bijgevolg is het dus belangrijk om enkele functionele parameter files te verkrijgen. Parameter files zijn bestanden waarmee je aan de QM-tool vertelt waarop en hoe er controles moeten worden uitgevoerd. Wij hebben deze verkregen via HIP en verder aangepast aan onze individuele situatie. Zelf vanaf nul een parameter file maken vereist een zeer doorgedreven kennis van de tool en van de gevolgde digitaliseringsstandaard, die bij de meeste organisaties niet aanwezig is vóór de start van het digitaliseren.
Eens we het gereedschap hadden, was het belangrijk dat we het correct gebruikten. Op dat vlak was het een prioriteit om alles te documenteren, net omdat de QM-tool een hoogdrempelige tool is. Daarom hebben we een gedetailleerd stappenplan uitgewerkt voor het verloop van de kwaliteitscontrole, alsook een versimpelde procedure die uitrolbaar is naar een ruimere groep digitaliseringsmedewerkers. Die versimpelde methode is gebaseerd op een draft van Metamorfoze 2.0. We namen daarom de metingen van Metamorfoze 2.0 al gedeeltelijk op in onze kwaliteitscontrole, specifiek voor de kleurnauwkeurigheid. Een aangepaste variant van onze handleiding voor kwaliteitscontrole is ook beschikbaar op dit platform.
Tools en alternatieven
Hieronder lijsten we nog eens op welke tools we gebruiken voor onze kwaliteitscontrole, en bij welke leverancier we deze hebben verkregen. Waar mogelijk wijzen we ook op enkele gangbare alternatieven, zowel op vlak van leverancier, als op vlak van tools. Hou wel rekening dat alternatieve tools meestal niet één-op-één met elkaar uitwisselbaar zijn. Een andere tool betekent ook een ander verloop van de kwaliteitscontrole. Zo zal een Kodak Grayscale een andere parameterfile nodig hebben in de QM-tool dan een MLGS, ondanks dat de beide testkaarten eenzelfde functie vervullen. Onderstaand overzicht is natuurlijk ook niet exhaustief, maar het is een beeld van welke bedrijven en tools bij ons bekend waren omstreeks de opstart van de digitalisering in begin 2023. Specifiek voor targets kijken we vooral naar leveranciers die de mogelijkheid van opgemeten targets voorzien.
Tools/Targets | Leverancier | Alternatieve leverancier | Alternatieve tool/target |
Digital Colorchecker SG | HIP | Image Engineering; Image Science Associates | / |
Munsell Linear Grayscale | HIP | Image Science Associates | Kodak Grayscale |
Universal Test Target | Image Engineering | HIP; DT Heritage | QA-62 (enkel voor scherpte) |
Adobe Photoshop | Adobe | / | GIMP |
OS QM-tool | Zeutschel | / | IQ Image Analyzer; OpenDICE (enkel voor FADGI); Rijksmuseum Image Performancetool (FADGI, maar niet gebruiksvriendelijk door de stopzetting van de deltaE-tool) |
Opvolging
De tools en kennis voor een goede kwaliteitscontrole zijn op zich niet zaligmakend. Je moet de resultaten ook kunnen interpreteren en op basis daarvan bijsturen waar nodig. Daarom hebben we een Excelbestand aangemaakt waar de resultaten van de kwaliteitscontrole worden ingevoerd en al een eerste interpretatie gebeurt. Elke drie maanden bundelen we die resultaten in een kwartaalverslag om zo evoluties op langere termijn in kaart te brengen. In die verslagen documenteren we ook de evolutie van de kwaliteitscontrole als proces. Kennisverankering en transparantie over het proces staan hierbij centraal. We wilden ten alle koste vermijden dat de kennis vast zat bij één persoon en dat later niemand kan achterhalen waarom bepaalde keuzes zijn gemaakt.
Hier kan je een voorbeeld vinden van ons registratiedocument voor de resultaten van de kwaliteitscontrole. De effectief ingevulde waarden zijn willekeurige waarden (aangemaakt via ChatGPT) die de functionaliteit van het document moeten illustreren. De onderlinge cohesie tussen de waarden is dus onbestaand.
We geven ook een voorbeeld mee van hoe ons kwartaalverslag eruitziet. De effectieve gegevens zijn opnieuw fictief, maar de structuur van het document en de omgang met de gegevens is wel gelijk aan de eigenlijke praktijk binnen de OBB. Als organisatie kun je dit natuurlijk aanpassen aan de eigen noden. Zo was ons eerste kwartaalverslag tegelijkertijd ook een volledige voorgeschiedenis van hoe het proces van kwaliteitscontrole tot dan toe was verlopen. Zo kan iemand op basis van de kwartaalverslagen een duidelijk beeld krijgen van elke stap die we hebben genomen als organisatie op vlak van kwaliteitscontrole.
Iets waar we zelf nog momenteel aan werken is een digitaliseringsprotocol. Daarin schrijven we de grote lijnen uit van wat op welke manier moet worden gedigitaliseerd, in functie van ons beleidsplan. We kijken daarbij naar welke kwaliteitsnormen we voor welke types documenten hanteren, alsook welke afwijkingen van die kwaliteitsnormen we bereid zijn te tolereren. Als organisatie is het belangrijk om een evenwicht te vinden tussen de regels van een standaard en de praktische overwegingen voor continuïteit. Dat evenwicht moet op voorhand vastgelegd worden, zodat er steeds consequente keuzes worden gemaakt.
Literatuur
Over het project
Aanbevolen literatuurlijst
Wikiplatformen
- ARIJS, H. red., Erfgoed ontsluiten via Wikipedia, Dilbeek, 2023.
- GELAUFF, L., Schrijven voor Wikipedia. De handleiding, Culemborg, 2018.
Digitalisering en kwaliteitscontrole
- BRAULT, C., Digitalisering en Kwaliteit. Gids voor kwaliteitsbeheer en -controle in een project voor de digitalisering van erfgoed en documenten, Brussel, 2021.
- KIRCHNER, E., VAN WIJK, C., VAN BEEK, H. en KOSTER, T. 'Exploring the limits of color accuracy in technical photography' in Heritage Science, 2021 (9).
- POPPE, J., Handboek digitaliseren van documenten: technische aspecten en kwaliteitseisen, FARO, 2011.
- T.I. en A.K.E., Quality Controlled Scanning, Image Access, 2021.
- VAN DORMOLEN, H., 'Metamorfoze Preservation Imaging Guidelines, Version 2.0', in Proc. IS&T Archiving 2019, 2019, 9-11.
- VAN DORMOLEN, H., Richtlijnen Preservation Imaging Metamorfoze, Koninklijke Bibliotheek, 2012.
Contactgegevens
Collyn Verlinde, projectmedewerker digitalisering en databeheer, Openbare Bibliotheek Brugge: Collyn.Verlinde@brugge.be
Rony Vissers, Manager Expertise, meemoo: rony.vissers@meemoo.be