Publicatie:Digitizing the Corpus Rubenianum Ludwig Burchard: digitalisering en verrijking
Het doel van het project Digitizing Corpus Rubenianum Ludwig Burchard is het creëren van een nieuwe en gebruiksvriendelijke online en open access bron voor het wereldwijde kunsthistorische onderzoek naar oude Vlaamse kunst. Enerzijds gebeurt dit door de digitalisering van de verschillende boekdelen van Corpus Rubenianum Ludwig Burchard (CRLB), de aanmaak van zowel full-text doorzoekbare en downloadbare PDF-bestanden en de publicatie van een zo groot mogelijk deel van het CRLB. Anderzijds gebeurt dit door de aanmaak en publicatie van records over kunstwerken van Peter Paul Rubens en het online verrijken van het CRLB met hyperlinks naar de online database RKDimages (onderdeel van RKD explore).
Deze gevalstudie beschrijft enkel de digitalisering van de drieëntwintig volumes van het CRLB die in of voor het jaar 2000 zijn verschenen en de aanmaak en publicatie van de full-text doorzaakbare en downloadbare PDF-bestanden. Voor informatie over de aanmaak en publicatie van de records over kunstwerken van Rubens en het online verrijken van het CRLB via de online database RKDimages, zie Digitizing the Corpus Rubenianum Ludwig Burchard: beschrijving en publicatie.
Titel | Digitizing the Corpus Rubenianum Ludwig Burchard: digitalisering en verrijking (Voorkeurstitel) |
Locatie | |
Uitgever | |
Jaar van uitgave | 2016 |
Rechten | CC-BY-SA |
Persistent ID |
Auteur
Rony Vissers (PACKED vzw), met de medewerking van Karen De Meyst, Bert Watteeuw en Veronique Van de Kerckhof (allen Rubenianum)
Status
November 2013 – april 2014:
- digitalisering van vier volumes van het CRLB;
- aanmaak en publicatie van full-text doorzoekbare PDF-bestanden van de vier gedigitaliseerde volumes, met toegevoegde externe links naar zowel informatie over als beelden van kunstwerken van Peter Paul Rubens;
Mei 2014 - april 2015:
- digitalisering van tien volumes van het CRLB;
- aanmaak en publicatie van full-text doorzaakbare PDF-bestanden van de tien gedigitaliseerde volumes, met toegevoegde externe links naar zowel informatie over als beelden van kunstwerken Peter Paul Rubens.
Mei 2015 - april 2016:
- digitalisering van negen volumes van het CRLB;
- aanmaak en publicatie van full-text doorzaakbare PDF-bestanden van de negen gedigitaliseerde volumes, met toegevoegde externe links naar zowel informatie over als beelden van kunstwerken Peter Paul Rubens.
Eerst werd de volumes gedigitaliseerd die met de toestemming van de uitgevers als PDF-bestand online mogen worden gepubliceerd. Daarna werden de volumes gedigitaliseerd waarvoor er op verzoek van de uitgevers met hen is afgesproken dat de online publicatie pas in een latere fase zal gebeuren.
Momenteel staan de volgende drieëntwintig volumes als downloadbaar PDF-bestand online op de website van het Rubenianum:[1]
- I. The Ceiling Paintings for the Jesuit Church in Antwerp, John Rupert Martin, 1968, 1 vol., 340 pp., 231 ill. (ISBN 0199210128) (verrijkt met hyperlinks);
- II. The Eucharist Series, Nora De Poorter, 1978., 2 vols., 670 pp., 230 ill. (ISBN 019921011X)
- III. The Old Testament, R.-A. d’Hulst & M. Vandenven, 1989, 1 vol., 402 pp., 178 ill. (ISBN 090520364X) (verrijkt met hyperlinks);
- VI. The Passion of Christ, J. Richard Judson, 2000, 1 vol., 472 pp., 224 ill. (ISBN 0905203615);
- VII. The Life of Christ after the Passion, David Freedberg, 1984, 1 vol., 425 pp., 172 ill. (ISBN 0199210322) (verrijkt met hyperlinks);
- VIII. Saints, Hans Vlieghe, 1972-1973, 2 vols., 757 pp., 322 ill. (ISBN 1872501362)
- IX. The Decoration of the Torre de la Parada (*), Svetlana Alpers, 1971, 1 vol., 532 pp., 200 ill. (ISBN 0199210152) (verrijkt met hyperlinks);
- X. The Achilles Series, Egbert Haverkamp-Begemann, 1975., 1 vol., 532 pp., 74 ill. (ISBN 0199210160) (verrijkt met hyperlinks);
- XIII (1). Subjects from History, Elizabeth McGrath, 1997, 2 vols., 752 pp., 270 ill. (ISBN 0905203690)
- XVI. The Decorations for the Pompa Introitus Ferdinandi, John Rupert Martin, 1972, 1 vol., 377 pp., 114 ill. (ISBN 0199210179) (verrijkt met hyperlinks);
- XVIII (1). Landscapes, Wolfgang Adler, 1982, 1 vol. 376 pp., 173 ill. (ISBN 978-0-199210-27-5) (verrijkt met hyperlinks);
- XVIII (2). Hunting Scenes, Arnout Balis, 1986, 1 vol., 406 pp., 145 ill. (ISBN 978-0-199210-41-1) (verrijkt met hyperlinks);
- XIX (1). Portraits Painted in Foreign Countries, Frances Huemer, 1977, 1 vol., 206 pp., 137 ill. (ISBN 0199210187) (verrijkt met hyperlinks);
- XIX (2). Portraits of Identified Sitters Painted in Antwerp, Hans Vlieghe, 1987, 1 vol., 400 pp., 242 ill. (ISBN978-0-905203-57-7) (verrijkt met hyperlinks);
- XXI. Book Illustrations and Title Pages, J. Richard Judson & C. Van de Velde, 1977, 2 vols., 552 pp., 295 ill. (ISBN 0199219195)
- XXIII. Copies after the Antique, Marjon Van der Meulen, 1994, 3 vols., 878 pp., 550 ill. (ISBN 978-0-905203-62-1)
- XXIV. The Costume Book, Kristin Lohse Belkin, 1978, 1 vol., 329 pp., 294 ill. (ISBN 978-0-199210-20-6) (verrijkt met hyperlinks).
Voorlopig ontbreken nog de volgende zeventien volumes als downloadbaar PDF-bestand omdat ze korter dan vijftien jaar geleden werden gepubliceerd (afspraak met uitgever Brepols Publisher):
- V. The Life of Christ before the Passion: the Youth of Christ, Hans Devisscher & Hans Vlieghe, 2014, 2 vol., 560 p., 95 ill. (ISBN 978-1-872501-71-0);
- XI (1) Mythological subjects: Achilles to the Graces, E. McGrath, G. Martin, F. Healy, B. Schepers, C. Van de Velde, K. De Clippel, 2016, 2 vols., 944 pp., 466 ill. (ISBN 978-0-905203-67-6);
- XIII (3). Subjects from History. The Constantine Series, Koenraad Brosens, 2011,1 vol, 400 pp., 135 ill. (ISBN 978-1-905375-86-8);
- XV. The Ceiling Decoration of the Banqueting Hall, Gregory Martin, 2005, 2 vols., 366 pp., 162 ill. (ISBN 978-0-905203-72-0);
- XXII (1). Architecture and Architectural Sculpture. Palazzi di Genova, Herbert W. Rott, 2002, 2 vols., 588 pp., 372 ill. (ISBN 978-1-872501-33-8);
- XXVI (1). Copies and Adaptations from Renaissance and Later Artists. German and Netherlandish Artists, Kristin Lohse Belkin, 2009, 2 vols., 600 pp., 399 ill. (ISBN 978-1-905375-38-7);
- XXVI (2.1). Copies and Adaptations from Renaissance and Later Artists. Italian Masters I. Raphael and his School, Jeremy Wood, 2010, 2 vols., 717 pp., 311 ill. (ISBN 978-1-905375-39-4);
- XXVI (2.2). Copies and Adaptations from Renaissance and Later Artists. Italian Masters II. Titian and North Italian Art, Jeremy Wood, 2010, 2 vols., 680 pp., 246 ill. (ISBN 978-1-905375-40-0);
- XXVI (2.3). Copies and Adaptations from Renaissance and Later Artists. Italian Masters III. Artists working in Central Italy and France, Jeremy Wood, 2011, 2 vols., 704 pp., 306 ill. (ISBN 978-1-905375-41-7).
Vanaf januari 2015 werden al wel tien volumes hiervan gedigitaliseerd, maar deze mogen door de afspraak met de uitgevers (nog) niet online ter beschikking gesteld worden. Ze zijn dus ook nog niet verrijkt met externe links naar zowel informatie over als beelden van kunstwerken van Peter Paul Rubens.
Ook de volgende boekdelen ontbreken nog omdat ze nog niet zijn gepubliceerd:
- IV. The Holy Trinity, Life of the Virgin, Madonnas, Holy Family;
- V (2). The Life of Christ Before the Passion: the Ministry of Christ;
- XI (2). Mythological Subjects H-O;
- XI (3). Mythological Subjects O-Z;
- XII. Allegories and Subjects from Literature;
- XIII (2). Subjects from History. The Decius Mus Series;
- XIV (1). The Medici Series;
- XIV (2). The Henry IV Series;
- XVII. Genre Scenes;
- XIX (3). Portraits of Unidentified Sitters;
- XIX (4). Portraits after Existing Prototypes;
- XX (1). Anatomical Studies;
- XX (2). Study Heads;
- XXII (2). Architecture and Architectural Sculpture. The Rubens House;
- XXII (3). Architecture and Architectural Sculpture. The Jesuit Church;
- XXII (4). Architecture and Architectural Sculpture. Architectural Sculpture;
- XXII (5). Architecture and Architectural Sculpture. Sculpture and Designs for Decorative Art;
- XXV. The Theoretical Notebook;
- XXVII (1). Works in Collaboration: Brueghel;
- XXVII (2). Works in Collaboration: Other Masters;
- XXVIII. Drawings Not Related to the Above Subjects;
- XXIX. Addenda.
Probleemstelling
Wat werd er precies gedigitaliseerd?
Het doel van het project Digitizing Corpus Rubenianum Ludwig Burchard is het creëren van een nieuwe en gebruiksvriendelijke online en open access bron voor het wereldwijde kunsthistorische onderzoek naar oude Vlaamse kunst. Het digitaliseringsproject heeft twee onderdelen:
- het online aanbieden van een zo groot mogelijk deel van het CRLB als full-text doorzoekbare en downloadbare PDF-bestanden;
- het aanmaken en publiceren van records over kunstwerken van Peter Paul Rubens en het online verrijken van het CRLB met hyperlinks naar de online database RKDimages.
Het oeuvre van Peter Paul Rubens wordt geschat op ruim 2.500 composities en telt ongeveer 10.000 kunstwerken. Het opzet van het CRLB is het creëren van een volledige catalogus daarvan. Het CRLB is gebaseerd op het materiaal dat gedurende verschillende decennia werd verzameld door Ludwig Burchard, die wereldwijd wordt erkend als dé Rubens-kenner. Na de dood van Burchard in 1960 werd zijn materiaal overgedragen aan de stad Antwerpen.
Momenteel is het CRLB voor twee derde voltooid. Het eerste deel verscheen in 1968. Het laatste deel zal in 2020 worden gepubliceerd. Het CRLB bestaat uit negenentwintig delen waarvan er een aantal bestaat uit meerdere subdelen en die bovendien uit meerdere volumes kunnen bestaan. Elk deel is geschreven door een bekende Rubens-onderzoeker en het doel is het realiseren van Burchards intentie om alle hedendaagse kennis over het werk van Rubens te omvatten. De wetenschappelijke uitgave van het CRLB wordt verzorgd door de vzw Centrum Rubenianum - Centrum voor Vlaamse kunst van de 16de en de 17de eeuw. Het Rubenianum verzamelt en ontwikkelt kennis over de rijke artistieke traditie van de Zuidelijke Nederlanden en stelt deze ter beschikking voor zowel een professioneel als een in erfgoed geïnteresseerd publiek.
Het CRLB bestaat momenteel uit veertig boekvolumes. Het eerste boekvolume werd in 1968 gepubliceerd, het zevenendertigste boekvolume in maart 2015. Drieënendertig volumes zijn ondertussen gedigitaliseerd door het Rubenianum; alles samen omvat dit ongeveer 12.000 boekpagina’s. De resterende volumes zullen gaandeweg door het Rubenianum worden gedigitaliseerd, afhankelijk van hun verschijningsdatum. Drieëntwintig volumes zijn reeds online beschikbaar als downloadbaar PDF-bestand.
De metadata over de kunstwerken die beschreven staan in de verschillende boekdelen van van CRLB worden online aangeboden via het Nederlands Instituut voor Kunstgeschiedenis - RKD. De full-text doorzoekbare en downloadbare PDF-bestanden worden online aangeboden via de website van het Rubenianum. De metadata over de boeken is ook opgenomen in Anet, een netwerk van een twintigtal wetenschappelijke bibliotheken in de regio Antwerpen en Limburg die gebruik maken van Brocade als bibliotheeksysteem.
Ieder boekvolume bestaat, naast o.a. de inleiding en de index, uit een viertal onderdelen. Alhoewel het Rubenianum oorspronkelijk overwoog om de boeken uit elkaar te halen en de verschillende onderdelen ervan afzonderlijk online aan te bieden, is dit uiteindelijk niet gebeurd. Het Rubenianum heeft er voor gekozen om de boeken als geheel te respecteren. Wel wordt de index nog apart als PDF-bestand aangeboden. Het Rubenianum koos ervoor om de index ook apart aan te bieden om enerzijds zo een kleine foutenmarge te kunnen opvangen[2] en anderzijds de gebruiker de mogelijkheid te bieden om tegelijkertijd zonder bijkomende inspanningen het PDF-bestand van het volledige boek en het PDF-bestand van de index naast elkaar te kunnen openen.[3]
Tegelijkertijd met de digitalisering van het CRLB werden door het Rubenianum ook beschrijvingen aangemaakt van kunstwerken van Peter Paul Rubens. Dit gebeurde in de databank van RKD. Er werden zelfs beschrijvingen aangemaakt van kunstwerken die ondertussen niet meer bestaan. Ook kunstwerken die tijdens de publicatie van een bepaald CRLB-volume verloren gewaand werden en pas na de publicatie terug opgedoken zijn, konden beschreven worden. Toeschrijvingen die een auteur van een CRLB-volume gemaakt heeft in de publicatie maar die later onjuist bleken te zijn, konden aangepast worden in het digitale record. Titels van kunstwerken in de PDF-bestanden van de gedigitaliseerde boekvolumes worden gekoppeld aan informatie over en, indien mogelijk, een foto van kunstwerken in de online databank RKDimages. Door die verrijking wordt het CRLB op een digitale manier geactualiseerd. In tegenstelling tot de gedrukte boekvolumes voorziet de digitale update voor elk Rubenswerk (een link naar) een digitaal record met, indien mogelijk, een (kleuren)afbeelding. Ook de vele schilderijen en tekeningen die niet gekend waren op het moment van de publicatie van het boek worden zo alsnog toegevoegd.
De gekozen werkwijze moet het Rubenianum, o.a. door de samenwerking met RKD, toelaten om de overgang te maken van analoge naar digitale werkprocessen, en dat op een wijze die beiden versterkt.
Welke richtlijnen en standaarden zijn hierbij van toepassing? Wat zijn de vooropgestelde kwaliteitseisen?
CEST-richtlijn Tekstdocumenten digitaliseren
De richtlijn uit de Cultureel Erfgoed Standaarden Toolbox (CEST) van PACKED vzw die van toepassing is op dit digitaliseringsproject is de richtlijn Tekstdocumenten digitaliseren. Ze heeft immers betrekking op de omzetting van een tekstdocument van een analoge naar digitale versie, en dit op twee manieren of in twee stappen:
- de omzetting naar een digitaal beeld, waarbij de inhoud en de vorm van het tekstdocument wordt gecodeerd in een digitale rasterafbeelding die het oorspronkelijke document reproduceert;
- de omzetting naar een machineleesbare tekst, waarbij inhoud en de vorm van het tekstdocument in een digitaal tekstbestand wordt gecodeerd zodat het document gelezen kan worden door computersystemen.
De standaarden hebben betrekking op
- de beschrijving van de collectie tekstdocumenten;
- de aanmaak van een moederbestand voor het digitale beeld:
- het bestandsformaat;
- de resolutie;
- de kleurruimte en kleurdiepte;
- de bestandsnaam;
- de structurele metadata over het gedigitaliseerde tekstdocument;
- de aanmaak van een moederbestand voor de machineleesbare tekst:
- het bestandsformaat;
- de koppeling tussen machineleesbare tekst en het digitale beeld;
- de registratie van administratieve metadata over het gedigitaliseerde tekstdocument;
- de aanmaak van archiverings-, reproductie- en raadplegingsbestanden.
De beschrijving van de collectie tekstdocumenten (de verschillende boekvolumes die onderdeel zijn CRLB) wordt hier niet behandeld in deze gevalstudie. Dit is ook het geval voor de beschrijving van de kunstwerken en de reproducties ervan. Hiervoor verwijzen we naar de gevalstudie Digitizing Corpus Rubenianum Ludwig Burchard: beschrijving en publicatie.
De aanmaak van een moederbestand voor het digitale beeld
Voor de aanmaak van het moederbestand voor het digitale beeld vereist de toepassing van de CEST-richtlijn Tekstdocumenten digitaliseren het gebruik van een open en goed gedocumenteerd bestandsformaat. De richtlijn beveelt aan bij digitalisering:
- JPEG enkel als moederformaat te gebruiken als het digitale beeld louter gebruikt wordt voor het produceren van gestructureerde tekst of voor het ter beschikking stellen van de inhoud van het tekstdocument;
- het gebruik van PDF of PDF/A als moederbestand te vermijden, omdat het heel moeilijk is om van dit bestandsformaat verdere reproductie- of raadplegingsbestanden te maken.
Met betrekking tot de resolutie vereist de toepassing van de CEST-richtlijn Tekstdocumenten digitaliseren voor het produceren van machineleesbare tekst de minimumeis dat de "punten" en "openingen" van de letters duidelijk zichtbaar zijn. In de praktijk betekent dit bijvoorbeeld dat het puntje van de "i" los staat van het streepje, of dat de opening in de "e" duidelijk zichtbaar is. Het gebruik van een resolutie van minimum 300 ppi is vereist wanneer van het digitale beeld raadplegingsbestanden worden gemaakt. 300 ppi is immers de minimale resolutie om een gedigitaliseerd tekstdocument op ware grootte af te drukken.
De toepassing van de CEST-richtlijn veronderstelt ook het gebruik van een bitdiepte van minimum 8 bit [4] voor een moederbestand waarmee via OCR-software gestructureerde tekst wordt gemaakt, evenals voor een moederbestand waarmee de inhoud van het tekstdocument ter beschikking wordt gesteld. Voor een moederbestand waarmee een betrouwbare kleurenweergave van het oorspronkelijk tekstdocument ter beschikking wordt gesteld, vereist de toepassing van de CEST-richtlijn Tekstdocumenten digitaliseren het gebruik een kleurdiepte van minimum 24 bit. De CEST-richtlijn vereist het gebruik van de sRGB-kleurruimte voor het coderen van kleur in digitale beelden met een bitdiepte tot 24 bit (en eciRGB voor beelden met een grotere bitdiepte).
Verder moet de bestandsnaam elk digitaal beeld in de collectie van de organisatie uniek identificeren. Enkel letters, cijfers, liggend streepje ( _ underscore) of koppelteken (- hyphen) mogen worden gebruikt, dus geen speciale tekens zoals bv. haakjes, streepjes, leestekens. Die tekens hebben immers vaak specifieke betekenissen voor dataverwerkende scripts of software en kunnen dus onvoorspelbare effecten hebben. Ook diakritische tekens (accenten, trema's) moeten vermeden worden. De bestandsnaam kan zowel een betekenisloze (bv. een unieke reeks cijfers en/of letters) als een betekenisvolle structuur hebben, maar dient steeds uit een zo beperkt mogelijk aantal onderdelen te bestaan (bv. identificatienummer tekstdocument + volgnummer pagina).
Volgens de CEST-richtlijn Tekstdocumenten digitaliseren dient een gestructureerd tekstbestand (CSV of XML) gebruikt te worden om structurele informatie over een gedigitaliseerd tekstdocument te bewaren. De bestandsnaam mag enkel gebruikt worden om structurele metadata over eenvoudige tekstdocumenten te bewaren. De structurele informatie moet hierbij beperkt blijven tot een volgnummer dat verwijst naar de reeks pagina's in het oorspronkelijke tekstdocument. Het gebruik van een hiërarchische mappenstructuur om de structuur van een gedigitaliseerd tekstdocument te registreren moet hierbij vermeden worden.
De aanmaak van een moederbestand voor de machineleesbare tekst
Voor de aanmaak van het moederbestand voor de machineleesbare tekst vereist de toepassing van de CEST-richtlijn Tekstdocumenten digitaliseren het gebruik van zowel een open bestandsformaat als een tekenset die op Unicode gebaseerd is, bij voorkeur UTF-8. Het is aanbevolen om XML te gebruiken om structuur toe te voegen aan tekst en het bijhorende XML Schema te publiceren. Dit XML Schema conformeert zich best aan de TEI-richtlijnen. Om de lay-out van de tekst te coderen wordt best het ALTO XML Schema gebruikt. Volgens de CEST-richtlijn moet ook een permanente koppeling tussen de machineleesbare tekst en het digitale beeld worden verzekerd als beiden toegankelijk worden gemaakt.
De registratie van de administratieve metadata over het gedigitaliseerde tekstdocument
De toepassing van de CEST-richtlijn Tekstdocumenten digitaliseren veronderstelt dat er wordt bepaald welke administratieve metadata zal worden bewaard, en dat vervolgens de geselecteerde administratieve metadata worden bewaard in een gestructureerd tekstbestand (bv. XML, CSV, databankbestand). De geselecteerde administratieve metadata moeten indien mogelijk ook in de header van het beeldbestand zelf worden bewaard.
De aanmaak van archiverings-, reproductie- en raadplegingsbestanden
De toepassing van de CEST-richtlijn Tekstdocumenten digitaliseren veronderstelt het gebruik van een open bestandsformaat voor het archiveringsbestand, en van een open en goed ondersteund bestandsformaat voor het reproductiebestand. Het PDF-bestandsformaat wordt hierbij aanbevolen om tekstdocumenten toegankelijk te maken die uit meerdere onderdelen bestaat (bv. recto/verso tekstdocument, bundel tekstdocumenten, boek, tijdschrift of bijlagen), om digitale beelden en machineleesbare tekst geïntegreerd toegankelijk te maken en om digitale beelden af te drukken.
Hoe werd het behalen van de vooropgestelde kwaliteitseisen verzekerd?
Het Rubenianum is doelbewust afgeweken van een aantal van de bovenvermelde minimumeisen uit de CEST-richtijn Tekstdocumenten digitaliseren. De reden hiervoor is dat het Rubenianum ervoor kiest om enkele digitale raadplegingsbestanden te creëren en geen digitale archiveringsbestanden. Voor de langetermijnbewaring van de informatie blijft men immers rekenen op de gedrukte boeken zelf. Bovendien ligt de nadruk vooral op de tekst. Voor de afbeeldingen van de vermelde kunstwerken rekent het Rubenianum vooral op de afbeeldingen in RKDimages. Pas als de boeken zouden dreigen te verdwijnen, ziet het Rubenianum een noodzaak om ze te digitaliseren in functie van de aanmaak van digitale archiveringsbestanden.
In de praktijk betekent dit dat vooral de afwijking van de volgende kwaliteitseisen CEST-richtijn Tekstdocumenten digitaliseren gevolgen zal hebben voor de duurzaamheid van de resultaten van dit digitaliseringsproject:
- een gestructureerd tekstbestand (CSV of XML) gebruiken om structurele informatie over een gedigitaliseerd tekstdocument te bewaren;
- het gebruik van XML om structuur toe te voegen aan machineleesbare tekst en publiceren van het bijhorende XML Schema dat conform is aan de TEI-richtlijnen, en het gebruik van het ALTO XML Schema om de lay-out van de tekst te coderen.
Methode
Overzicht van de verschillende onderdelen van het project
Dit deel van het project Digitizing the Corpus Rubenianum Ludwig Burchard bestond uit verschillende deelprocessen:
- verzamelen en voorbereiden van het te digitaliseren materiaal;
- digitaliseren:
- verrijken van de PDF-bestanden met externe links naar records over kunstenwerken op RKDimages;
- afspraken maken over rechten;
- online publiceren;
- verwerken van het gedigitaliseerde materiaal.
Verzameling en voorbereiding van het te digitaliseren materiaal
De te digitaliseren boeken werden door het Rubenianum in huis verzameld en indien niet meer voorradig aangekocht in functie van het project Digitizing the Corpus Rubenianum Ludwig Burchard. Indien nodig gebeurde dit op de tweedehandsmarkt, bij antiquaire boekenwinkels. Om de digitalisering zo makkelijk mogelijk te maken, werd de rug van de boeken gesneden.[5]
Het Rubenianum besloot om de digitalisering uit te besteden aan een gespecialiseerd bedrijf. Om een goede keuze te maken werden er bij drie verschillende digitaliseringsbedrijven offertes opgevraagd. Op basis van deze offertes werd de opdracht toevertrouwd aan één van de drie bedrijven (ACMIS). De offertes werden door de bedrijven opgemaakt op basis van een dialoog met het Rubenianum die in belangrijke mate per e-mail verliep. Er was geen formele aanbestedingsprocedure. De dialoog met het gekozen digitaliseringsbedrijf voorafgaande aan de start van de eigenlijke digitalisering, heeft zeven maanden geduurd.
Digitalisering
De aanmaak van een moederbestand voor het digitale beeld
De kwaliteitskeuzes die het Rubenianum heeft gemaakt, zijn gebaseerd op de redenering dat de digitale bestanden de boeken niet dienen te vervangen. Bovendien is het Rubenianum vooral geïnteresseerd in de tekst, en minder in de opgenomen afbeeldingen van de schilderijen. Voor de afbeeldingen wil men in de raadplegingsbestanden in PDF immers een koppeling leggen naar (recentere) online afbeeldingen die in kleur zijn en van een betere kwaliteit. Het moederbestand voor het digitale beeld dient enkel voor het produceren van de OCR-tekst en het raadplegingsbestand, niet voor het produceren van een archiveringsbestand dat als reproductie de originele boeken vervangt.
Vooraleer de kwaliteitseisen voor de scans vast te leggen, heeft het Rubenianum een testfase doorlopen. Eerst werden scans in zwart/wit getest. De achterliggende redenering was de bestandsgrootte (en dus de benodigde opslagcapaciteit) niet onnodig te vergroten. Hieruit bleek dat het te sterke contrast van de zwart/wit scans het OCR-proces bemoeilijkte, bovendien was zwart/wit niet geschikt om bv. occasioneel in het boek tussen de tekst ingevoegde afbeeldingen of plannen op een bevredigende manier te scannen (door o.a. de iets donkere achtergrond van afbeeldingen). Bij scans in grijswaarden werd dat en het OCR-resultaat gevoelig beter. Bovendien was de tekst in de scans in grijswaarden aangenamer om te lezen dan die in de scans in zwart/wit. In de testfase werden wel enkel boeken uit de jaren 60 en 70 bekeken die uitsluitend afbeeldingen in zwart/wit bevatten en die bovendien netjes gebundeld zitten in aparte katernen achterin het boek. Dat maakte het in principe gemakkelijk om bijvoorbeeld zonder veel dure manuele handelingen tekst en afbeeldingen af te splitsen. Met het toenemende gebruik van kleurafbeeldingen in recentere publicaties, waarbij afbeeldingen ook steeds meer tussen de tekst voorkomen, heeft het Rubenianum vervolgens beslist om meteen uniform te scannen op een manier die ook die nieuwe volumes recht kon doen en die het aantal manuele handelingen (en de prijs) zou drukken.
Het Rubenianum heeft er uiteindelijk voor gekozen om het JPEG-bestandsformaat te gebruiken (en bv. niet het TIFF-bestandsformaat). De andere kwaliteitseisen m.b.t. moederbestand voor het digitale beeld zijn: eigenschappen:
- resolutie: 300 ppi;
- bitdiepte: 24 bits;
- kleurruimte: AdobeRGB;
- grootte: 2.017 x 3.005 pixels.
JPEG is bestandsformaat dat gekenmerkt wordt door lossy compressie. Door deze compressie kan de vereiste opslagcapaciteit worden verkleind, maar gaat onvermijdelijk ook een stukje informatie / beeldkwaliteit verloren. Het Rubenianum heeft een compressieratio gekozen die toch een goede visuele kwaliteit verzekert.
De bestandsnaam van de JPEG-bestanden moest bestaan uit een Romeins cijfer dat betrekking heeft op het corpusdeel, gevolgd door een underscore en nadien een Arabisch cijfers dat een volgnummer is die wordt toegekend per scan/pagina (niet gelijklopend met paginering CRLB) en de bestandsextensie. Bijvoorbeeld: VI_0001.jpg.
Rubenianum verkoos geen gestructureerd tekstbestand (CSV of XML) te creëren om structurele informatie over een gedigitaliseerd tekstdocument te bewaren. De enige structurele informatie die Rubenianum bewaart, heeft betrekking op de volgorde van de scans en die wordt bewaard in de bestandsnaam van de verschillende JPEG-bestanden.
Bij de creatie van de digitale beeldbestanden was er zoals hogervermeld een testfase voorzien. Pas na goedkeuring van de testresultaten door het Rubenianum werd er overgaan tot de eigenlijke digitalisering. Na de testfase is er geen kwaliteitscontrole meer gedaan door het Rubenianum. Wel is er een volledigheidscontrole gebeurd. Deze is onder toezicht van de projectmedewerker uitgevoerd door een jobstudent die de aanwezigheid van alle JPEG-bestanden heeft gecontroleerd met de boeken ernaast. Ontbrekende of onleesbare pagina’s (door vlekken, scheuren of verkeerd gescand) werden nogmaals gescand door de jobstudent en toegevoegd aan het bestaande PDF-bestand op de juiste plaats. Pagina’s met afbeeldingen werden in de juiste richting gedraaid, dubbele scans werden verwijderd en pagina’s die verkeerd waren toegevoegd, werden verschoven naar de juiste plaats.
De aanmaak van een moederbestand voor de machineleesbare tekst
Het digitale beeld van het tekstdocument is een reproductie die wel leesbaar is voor de mens, maar niet voor een 'machine'. Om de inhoud van de tekst doorzoekbaar te maken voor de computer of om links te leggen tussen de inhoud van de tekst en andere informatiebronnen (bv. foto’s uit RKDimages), moet de tekst eerst machineleesbaar gemaakt worden. Deze omzetting gebeurt in het project Digitizing the Corpus Rubenianum Ludwig Burchard door middel van optische karakterherkenning (OCR).
De uitvoering van de OCR werd toevertrouwd aan het digitaliseringsbedrijf dat ook de digitale beelden aanmaakte. Het is onduidelijk wat de eigenschappen waren van het moederbestand van de machineleesbare tekst. Vanuit de redenering dat het digitale beeldbestand de boeken niet vervangt voor de bewaring van de inhoud, wou het Rubenianum enkel digitale raadplegingsbestanden aanmaken, geen archiveringsbestanden.
Dit betekent echter niet dat het Rubenianum geen machineleesbare tekst als afzonderlijk bestand heeft opgevraagd. Het Rubenianum vroeg immers om naast een raadplegingsbestand in het PDF-formaat (combinatie van beeld met OCR-tekst) ook de tekst per boekvolume in een DOCX-bestand te leveren. Deze DOCX-bestanden zijn afzonderlijk aangevraagd omdat het Rubenianum initieel overwoog om de tekst uit het CRLB over individuele kunstwerken integraal aan te bieden via RKDimages en via een online interface van het Rubenianum. Van dit plan is het Rubenianum nadien afgestapt omdat op die manier geen online plek gevonden kon worden voor de inleidende essays in het CRLB. De DOCX-bestanden zijn dus een soort terugvaloptie voor mogelijk toekomstige toepassingen.
Het gebruik van het open bestandsformaat ODT (Open Document Tekst) i.p.v. DOCX is door het Rubenianum niet overwogen. Er is wel overwogen om voor recente delen meteen een PDF-bestand op te vragen bij de uitgever, in plaats van het zelf door digitalisering te creëren. Die bewaart echter enkel zo'n bestand voor de drukproeven, niet voor de gepubliceerde delen. Omdat in de drukproeven nog laatste wijzigingen worden aangebracht en omdat die documenten een zwaar watermerk '© Brepols publishers' bevatten, zijn ze onbruikbaar voor het Rubenianum. Bovendien zouden de metadata over de gepubliceerde boeken niet overeenkomen met wat het Rubenianum dan effectief aanbiedt. De enige ‘shortcut’ die wel kan werken voor de nieuwe delen is het hergebruik van digitale beelden die zijn aangeleverd voor de papieren publicatie, maar daarvoor moeten dan eerst auteursrechtenkwesties worden uitgeklaard.
Bij de creatie van de OCR was een testfase voorzien. Enkel na goedkeuring van de testresultaten door het Rubenianum werd er overgaan tot het machineleesbaar maken van alle tekst uit de beeldbestanden.
Bij de realisatie van de OCR ondervond het digitaliseringsbedrijf een probleem met één letterteken dat in bepaalde boekvolumes voorkwam. Andere obstakels waren de verschillende talen die gebruikt werden in citaten in de boeken. Bij de aanvang van het OCR-proces was er vooral een probleem met tekstherkenning bij oude talen. Er staan regelmatig citaten in het Latijn in het CRLB en daar had de OCR-software oorspronkelijk problemen mee. Dit was ook het geval bij bijvoorbeeld bibliografische referenties naar publicaties uit Scandinavië met bijzondere leestekens. Het digitaliseringsbedrijf ACMIS heeft de OCR-problemen opgelost; hoe dit is gebeurd is niet duidelijk voor het Rubenianum.
De aanwijzingen voor de bestandsnaam van de DOCX-bestanden waren om de aanduiding COR_RUB te gebruiken, gevolgd door een underscore en een Romeins cijfer dat verwijst naar het boekdeel, een tweede underscore gevolgd door een Arabisch cijfer dat verwijst naar het volume en een derde underscore gevolgd door een Romeins cijfer dat verwijst naar de onderverdeling van het volume. Bijvoorbeeld: COR_RUB_XXVI_1_I.docx. Het boekdeel XXVI (1). Copies and Adaptations from Renaissance and Later Artists. German and Netherlandish Artists) bestaat immers uit twee volumes.
De registratie van de administratieve metadata over het gedigitaliseerde tekstdocument
Administratieve metadata is informatie die betrekking heeft op het gebruik en het beheer van een digitaal object, zoals wanneer en hoe het werd gemaakt, wat het bestandstype is en een aantal technische gegevens. Vaak wordt onderscheid gemaakt tussen enerzijds juridische metadata (wie is de rechthebbende, wie mag het digitaal object gebruiken en onder welke voorwaarden ...) en anderzijds technische metadata en preserveringsmetadata, die gegevens bevatten die nodig zijn voor het archiveren en preserveren van het object. De registratie en bewaring van de administratieve metadata zijn belangrijk om een duurzame toegankelijkheid tot het gedigitaliseerde tekstdocument te verzekeren.
Het Rubenianum heeft ACMIS geen specifieke instructies gegeven m.b.t. de aanmaak en opslag van administratieve metadata. Met uitzondering van enkele technische metadata ingebed in de bestanden, worden er geen adminstratieve bewaard. Dit is een aspect waar het Rubenianum vooraf niet over heeft nagedacht.
De aanmaak van archiverings-, reproductie- en raadplegingsbestanden
Een moederbestand is een digitale kopie waarvan verder kopieën worden afgeleid. De CEST-richtlijn maakt een onderscheid tussen drie verschillende types bestanden die afgeleid worden van het moederbestand:
- een archiveringsbestand: dit is een digitale kopie van het oorspronkelijke (digitale of analoge) document in de hoogst mogelijke kwaliteit - bij voorkeur voldoende hoog om het origineel in geval van vernietiging of beschadiging te vervangen;
- een reproductiebestand: dit is een digitale kopie van het oorspronkelijke (digitale of analoge) document of van een archiveringsbestand, waarvan de kwaliteit voldoende hoog is om de inhoud van het document op een betekenisvolle manier toegankelijk te maken;
- een raadplegingsbestand: dit is een digitale kopie die gebruikt wordt om een document digitaal ter beschikking te stellen.
Reproductiebestanden worden gebruikt als moederbestand voor het maken van verschillende soorten raadplegingsbestanden. De kwaliteit ervan dient voldoende hoog te zijn om aan de hoogste gebruikersnoden te voldoen, maar niet voldoende om het oorspronkelijke document te vervangen in geval van vernietiging of beschadiging. Reproductiebestanden worden bij voorkeur bewaard in een beveiligde opslagomgeving en zijn doorgaans enkel ter beschikking via het intranet van een bewaarinstelling.
De kwaliteit van een raadplegingsbestand wordt bepaald door de aard van het gebruik, zoals bv. weergave op een beeldscherm. De kwaliteit is vaak veel lager dan die van het archiverings- en/of reproductiebestand om de opslagcapaciteit en de benodigde bandbreedte beperkt te houden en het document makkelijker raadpleegbaar te maken. Raadplegingsbestanden worden enkel bewaard en beheerd voor de termijn van het beoogde gebruik.
Het Rubenianum heeft als resultaat van ACMIS de volgende bestanden aangeleverd gekregen:
- JPEG-bestanden van de pagina’s (met tekst of fotografische afbeeldingen), gegroepeerd per boekvolume;
- PDF-bestanden van de pagina’s (met tekst of fotografische afbeeldingen) zonder OCR-tekst, gegroepeerd per boekvolume;
- DOCX-bestanden met de machineleesbare tekst per boekvolume.
Al deze bestanden kunnen in dit geval beschouwd worden als moederbestanden. Van de JPEG-bestanden kan men indien gewenst opnieuw PDF-bestanden maken en er met behulp van OCR machineleesbare tekst uit distilleren. Het doel van de DOCX-bestanden is om de tekst als terugvaloptie los van de PDF-bestanden te bewaren. Zowel de JPEG- als DOCX-bestanden zijn voor het Rubenianum geen echte archiveringskopieën omdat ze de gedrukte boeken als drager voor de archivering van de niet-verrijkte tekst beschouwt. De aangeleverde PDF-bestanden zijn gebruikt om de ingebedde OCR-tekst te verrijken, en zo raadplegingskopieën te creëren.
Medewerkers van het Rubenianum vervulden vervolgens de volgende taken:
- het aanbrengen van verbeteringen in de OCR-tekst;
- het aanbrengen van links in de PDF-bestanden tussen titels van kunstwerken en digitale records met afbeeldingen en gegevens over de desbetreffende kunstwerken;
- het aanbrengen van addenda met hyperlinks in tekstvakken (kunstwerken die in het oorspronkelijke corpusdeel niet opgenomen waren).
Een voorbeeld van een dergelijke aangebrachte link ziet men als men het PDF-bestand van bv. het boekdeel Hans, Vlieghe, Corpus Rubenianum Ludwig Burchard Part XIX (2). Portraits of Identified Sitters Painted in Antwerp opent en vervolgens op pagina 98 klikt op de link achter “100. Hélène Fourment with Frans Rubens (Figs 103, 104)”. Men wordt dan doorverwezen naar een kleurafbeelding met metadata over het afgebeelde kunstwerk op de volgende locatie: https://rkd.nl/explore/images/218146. De gebruikte links zijn permalinks, wat de kans op linkrot voorkomt.
Rubenianum heeft de PDF-bestanden laten nakijken door een groep van testgebruikers.
Voor de creatie van de nieuwe PDF-bestanden en het aanbrengen van de links hebben de medewerkers van het Rubenianum de software Adobe Acrobat Pro gebruikt.
De aanwijzingen voor de bestandsnaam van de verrijkte PDF-bestanden waren de naam van de originele PDF-bestanden, waar ‘links’ aan toegevoegd wordt. Bijvoorbeeld: CRLB_19_2_links, waarbij het cijfer 19 verwijst naar het boekdeel en het cijfer 2 naar het volume.
Aangezien de verrijkte PDF-bestanden nieuwe informatie bevatten die niet aanwezig was in de gedrukte versies en het expliciet de doelstelling van het Rubenianum was om het Corpus Rubenianum Ludwig Burchard digitaal te actualiseren, zijn de verrijkte PDF-bestanden de facto niet alleen raadplegingsbestanden maar ook archiveringsbestanden voor de machineleesbare tekst. Aangezien de verrijking niet gebeurd is in de DOCX-bestanden kunnen zij niet beschouwd worden als de archiveringsbestanden van de geactualiseerde digitale versie van het Rubenianum Ludwig Burchard.
Alhoewel het Rubenianum de JPEG-bestanden en DOCX-bestanden niet beschouwt als archiveringsbestanden omdat ze de gedrukte boeken als drager voor de archivering van de niet-verrijkte tekst beschouwt, worden ze eigenlijk de facto toch archiveringsbestanden omdat ze allebei als terugvalopties worden beschouwd: de JPEG-bestanden voor in geval bv. de OCR ooit zou moet worden herdaan omdat er betere OCR-software beschikbaar komt of men de OCR-tekst nodig heeft in een andere vorm dan de huidige DOCX-bestanden (dus met behoud van lay-out), of de DOCX-bestanden voor in geval men ooit de OCR-tekst nodig heeft los van de PDF-bestanden (en zonder behoud van de lay-out).
Verrijking
De bedoeling is dat de PDF-bestanden, in tegenstelling tot de gedrukte versies, voor elk Rubenswerk (een link naar) een digitaal record bevatten met, indien mogelijk, een (kleuren)afbeelding. Ook de vele schilderijen en tekeningen die niet gekend waren op het moment van de publicatie van het boek worden zo alsnog toegevoegd. Momenteel staan er drieëntwintig volumes van het CRLB als downloadbaar PDF-bestand online, achttien daarvan werden verrijkt met externe links naar zowel informatie over als beelden van kunstwerken van Peter Paul Rubens. Vanaf januari 2015 werden er ook nog tien andere volumes gedigitaliseerd, maar die zijn nog niet verrijkt met externe links omdat ze door de afspraak met de uitgevers (nog) niet online ter beschikking mogen gesteld worden. Voor kunstwerken van Rubens die in deze volumes aan bod komen en niet in andere volumes, zijn er nog geen records aangemaakt in RKDimages.
In totaal zijn er in de achttien volumes enkele duizenden links toegevoegd. Een steekproef wijst uit dat het verrijkte PDF-bestand van het boek Hans Vlieghe, 1987, XIX (2). Portraits of Identified Sitters Painted in Antwerp bijvoorbeeld in totaal 429 markeringen bevat, waarvan 427 hyperlinks.[6] Deze hyperlinks leiden naar 408 verschillende records in RKDimages. Dit betekent dat er 19 dubbele hyperlinks zijn. Van de 408 records bevatten er 60 een afbeelding in zwart-wit en 198 een afbeelding in kleur. Wat de kleurreproducties betreft, dient wel opgemerkt te worden dat een aanzienlijk deel van de kleurreproducties eigenlijk kleuropnamen zijn van reproducties of kunstwerken in zwart-wit. Bij 105 records verschijnt de melding “niet online beschikbaar” (d.w.z. dat er enkel geen afbeelding beschikbaar is maar wel metadata over het kunstwerk), bij 45 de melding “geen afbeelding aanwezig”.[7] Het verrijkte PDF-bestand van de afzonderlijk downloadbare index van dit boek bevat geen hyperlinks.[8]
Beheer en bewaring van de verschillende digitale bestanden
De verschillende bestanden die door het Rubenianum bewaard worden, zijn:
- de JPEG-bestanden;
- de DOCX-bestanden;
- de oorspronkelijke PDF-bestanden (zonder verrijking);
- de verrijkte PDF-bestanden.
Deze bestanden worden nu bewaard op een server van de Stad Antwerpen die specifiek bedoeld is voor de bewaring van beeld- en geluidsbestanden. Op die server heeft elk boekvolume een aparte map waarin de PDF-bestanden (met en zonder hyperlinks) bewaard worden. Alle DOCX-bestanden van alle boekvolumes worden samen in een aparte map bewaard.
Het beheer gebeurt (nog) niet in een DAM-systeem, maar in verschillende mappen op de server. Het is wel de bedoeling dat dit in de toekomst zal gebeuren. Maar aangezien het DAM-systeem momenteel nog in zijn kinderschoenen staat, moet er nog overlegd worden hoe de opslag van digitale publicaties juist zal gebeuren. Dus de opslag in het DAM-systeem zal niet op korte termijn gebeuren.
Resultaten
Door het digitaliseringsbedrijf ACMIS zijn drie types van digitale bestanden aangemaakt:
- de JPEG-bestanden, zijnde fotografische reproducties van volledige boekvolumes;
- de DOCX-bestanden, zijnde de tekst die met behulp van OCR is gedistilleerd uit de fotografische reproducties;
- de oorspronkelijke PDF-bestanden (zonder verrijking), zijnde documenten per boekvolume die door de gangbare webbrowser kunnen weergeven en niet alleen de fotografische reproducties bevatten maar ook de OCR-tekst.
Het belangrijkste resultaat van het digitaliseringsproject zijn echter de PDF-bestanden die door medewerkers van het Rubenianum zelf zijn verrijkt. Dit zijn versies van de oorspronkelijke PDF-bestanden waarin door hen niet alleen correcties zijn aangebracht maar ook nieuwe informatie is toegevoegd. Deze nieuwe informatie bestaat uit links naar afbeeldingen van kunstwerken en metadata over de kunstwerken op de website van RKD. Het gaat om een zeer grote hoeveelheid links (meerdere honderden per PDF-bestand). Door deze verrijkte PDF-bestanden downloadbaar te maken op haar website, heeft het Rubenianum ontegensprekelijk een belangrijke bijdrage geleverd in functie van verder onderzoek over het oeuvre van Rubens. Het CRLB werd dankzij dit digitaliseringsproject op een digitale manier geactualiseerd. In tegenstelling tot de gedrukte boekvolumes voorziet de digitale update voor elk Rubenswerk (een link naar) een (kleuren)afbeelding. Ook de vele schilderijen en tekeningen die niet gekend waren op het moment van de publicatie van het boek werden zo alsnog toegevoegd.
Tegelijkertijd worden er door de manier waarop het digitaliseringsproject is uitgevoerd spijtig genoeg ook enkele belangrijke kansen gemist, vooral met betrekking tot de verrijkte OCR-tekst. Aangezien de verrijkte PDF-bestanden nieuwe informatie bevatten die niet aanwezig is in de gedrukte versies en het expliciet de doelstelling van het Rubenianum was om het CRLB digitaal te actualiseren, zijn de PDF-bestanden de facto niet alleen raadplegingsbestanden maar ook archiveringsbestanden voor de machineleesbare tekst. Aangezien de verrijking niet gebeurd is in de DOCX-bestanden kunnen zij niet beschouwd worden als de archiveringsbestanden van de geactualiseerde digitale versie van het Rubenianum Ludwig Burchard. Doordat de verrijkte machineleesbare tekst niet gearchiveerd wordt in een gestructureerd tekstbestand (XML), er geen bijhorend XML Schema is gepubliceerd dat conform is aan de TEI-richtlijnen, en er geen ALTO XML Schema is gebruik om de lay-out van de tekst te coderen zijn er een aantal gevolgen voor de duurzame toegankelijkheid, o.a.
- de gebruiksmogelijkheden van de verrijkte OCR-tekst zijn zeer beperkt (PDF-bestanden kunnen wel online worden geplaatst, maar er kan niets anders worden gedaan met de OCR-tekst buiten de PDF-bestanden);
- de verrijkte OCR-tekst kan niet online worden weergegeven naast de PDF-bestanden;
- de koppelingen tussen enerzijds de vermeldingen van de Rubenswerken in het CRLB en anderzijds de records in RKDimages zijn enkel vastgelegd in de PDF-bestanden. Dit impliceert dat er geen herbruikbaar overzicht bestaat van deze duizenden manueel aangebrachte koppelingen.
- de gebruiker kan enkel zoekopdrachten verrichten in de afzonderlijke boekvolumes (in de PDF-bestanden ervan) en niet over de verschillende boekvolumes heen. Dit wordt voor een deel opgevangen door het aanbieden van een zgn. ‘cumulatieve index’: een separaat document bestaande uit alle gedigitaliseerde indices die als downloadbare en full-text doorzoekbaar PDF-bestand online staan op de website van het Rubenianum;
- de vormgeving van de oorspronkelijke tekst is verloren als men alsnog de DOCX-bestanden zou omzetten naar XML.
Een voorbeeld van een digitaliseringsproject dat wel de OCR-tekst heeft opgeslagen in de duurzame digitale standaard TEI-XML en hem heeft verrijkt (door linguïstische software tags toe te kennen aan trefwoorden en namen van personen, plaatsen en organisaties) is het Archief Etcetera van de Univerisiteit Antwerpen en het podiumkunstentijdschrift Etcetera. Voor meer informatie, zie: http://theater.uantwerpen.be/etc/index.py Een voorbeeld waarbij voor volledige boeken een gelijkaardige aanpak is gehanteerd, vindt men in de bijdrage van The Getty Institute aan de American Libraries collection. Zie: https://archive.org/details/getty. Van ieder boek zijn daar digitale kopieën in verschillende formaten beschikbaar. Met betrekking tot bv. het boek Exposition universelle d’Anvers 1895 sous le haut patronage de sa majesté le roi des belges: catalogue de la section belge zijn digitale bestanden beschikbaar in achttien formaten. Er is niet enkel een PDF-bestand met een ingebedde OCR-tekst en een TXT-bestand van de OCR-tekst beschikbaar, maar ook o.a. een XML-bestand met de OCR-tekst.
Om de duurzame toegankelijkheid van de resultaten van het digitaliseringsproject Digitizing the Corpus Rubenianum Ludwig Burchard te verzekeren, is het aanbevolen te onderzoeken hoe de verrijkte OCR-tekst alsnog kan worden omgezet naar een geschikt XML-bestand. Mogelijke complicaties daarbij zijn dat de verrijking enkel is opgenomen in de PDF-bestanden en niet in de DOCX-bestanden, en dat wanneer men de DOCX-bestanden omzet naar XML-bestanden de vormgeving van de oorspronkelijke boeken verloren gaat en de toegevoegde links niet zijn opgenomen in de DOCX-bestanden.
Een ander aspect dat in het project Digitizing Corpus Rubenianum Ludwig Burchard door het Rubenianum over het hoofd werd gezien en gevolgen kan hebben voor de duurzame toegankelijkheid van de digitaliseringsresultaten is het gebrek aan metadata, zowel structurele als bepaalde administratieve metadata. Het is aanbevolen te onderzoeken hoe alsnog aparte structurele metadata kunnen worden gecreëerd en bewaard voor de bestanden, in het bijzonder de JPEG-bestanden. Het is niet omdat vandaag enkel de PDF-bestanden actief worden gebruikt voor raadplegingsdoeleinden, dat er in de toekomst geen nood of mogelijkheid kan ontstaan om de JPEG-bestanden te gebruiken voor raadplegingsdoeleinden. Het is zeer de vraag of dit dan mogelijk zal zijn als men moet terugvallen op de bestandsnamen en de ordening van de bestanden in mappen. Verder is het aanbevolen te onderzoeken hoe alsnog bepaalde administratieve metadata kunnen worden ingebed in zowel de PDF- als JPEG- en DOCX-bestanden. Het gaat dan enerzijds over metadata m.b.t. rechten en anderzijds over metadata m.b.t. herkomst.
Bronnen
- Corpus Rubenianum Ludwig Burchard online
- RKDimages
- CEST-richtlijn Tekstdocumenten digitaliseren
- Archief Etcetera
- American Libraries collection
Contactgegevens
Rony Vissers, coördinator PACKED vzw
- tel: ++32 (0)2 217 14 05
- e-mail: rony@packed.be
Véronique Van de Kerckhof – directeur Rubenianum
- tel: ++32 (0)3 201 15 77
- e-mail: Veronique.vandeKerckhof@stad.antwerpen.be
Bert Watteeuw – wetenschappelijk medewerker ABC2018 - Signed by Rubens
- tel: ++32 (0)3 201 15 77
- e-mail: Bert.Watteeuw@stad.antwerpen.be
Karen De Meyst – projectmedewerker Rubenianum
- tel: ++32 (0)3 201 15 77
- e-mail: Karen.DeMeyst@stad.antwerpen.be
Voetnoten
- ↑ Geraadpleegd op 7 juli 2016.
- ↑ Als een term in het corpus van de tekst bij de OCR niet correct herkend is, kan die term niet via de functie Ctrl+f worden opgezocht. De kans bestaat echter dat de term wel correct is herkend in de index, waardoor via de paginering de niet correct herkende term alsnog teruggevonden kan worden in het corpus van de tekst.
- ↑ Voor de tweede reden moet strikt genomen geen apart PDF-bestand met een index worden aangemaakt want de lezer kan hetzelfde PDF-bestand van de volledige publicatie (met index inbegrepen) natuurlijk ook laden in twee verschillende tabbladen van de webbrowser. Het Rubenianum heeft immers op haar website voorzien dat telkens men op de link naar de downloadbare PDF-bestand klikt het PDF-bestand opent in een nieuw tabblad van de webbrowser. Enkel voor VI. The Passion of Christ, J. Richard Judson, 2000. 1 vol., 472 pp., 224 ill. (ISBN 0905203615) is dit niet gebeurd, waarschijnlijk door een menselijke fout.
- ↑ Een beeld met een kleurdiepte van 8 bits bevat enkel grijswaarden.
- ↑ Na digitalisering werden de boeken terug ingebonden, behalve bij de meest recent gepubliceerde boeken.
- ↑ De twee werken waarbij er geen link is naar een record in RKDimages zijn 83. Jacomo de Cachiopin en 88. The Duchess of Croy. Het eerste werk is verloren gegaan, maar zou deze persoon voorstellen. Omdat dit niet zeker is, werd er geen informatie opgenomen in het corpusdeel. Het tweede werk schreef Burchard toe aan Rubens, maar de auteur van het boek (Hans Vlieghe) gaat hier niet mee akkoord. Hij schrijft dat het werk zal besproken worden in een nog te publiceren volume (Unidentified portraits). Er is geen informatie over het kunstwerk opgenomen in dit corpusdeel, dus werd er ook geen record aangemaakt in RKDimages.
- ↑ Op deze cijfers is een kleine foutenmarge mogelijk omdat er geen dubbele controle is gebeurd.
- ↑ Aangezien de index ook als apart document is gepubliceerd en dus ook los van de rest van het boek kan worden gebruikt, was het misschien consequenter geweest om in deze index zelf ook hyperlinks toe te voegen. Nu moet men na raadpleging van de index eerst naar de vermelding in rest van het boek, en vandaar kan men pas doorlinken naar de het record over het kunstwerk in RKDimages.