Publicatie:Capteren van data van verouderde dragers van Opera Ballet Vlaanderen
In de zomer van 2017 ontving PACKED vzw een collectie verouderde dragers van Opera Ballet Vlaanderen. PACKED vzw trachtte de bestanden van deze dragers te migreren naar hedendaagse gegevensdragers. Het doel was alle bestanden van de obsolete en/of onbetrouwbare dragers te halen en ervoor te zorgen dat de bestanden door Opera Ballet Vlaanderen terug gebruikt en gelezen konden worden.
Titel | Capteren van data van verouderde dragers van Opera Ballet Vlaanderen (Voorkeurstitel) |
Locatie | |
Uitgever | |
Jaar van uitgave | 2018 |
Rechten | CC-BY-SA |
Persistent ID |
Auteur
Nastasia Vanderperren (PACKED vzw), Alex Jaou en Rony Vissers (PACKED vzw)
Probleemstelling
Opera Ballet Vlaanderen verenigt de Vlaamse Opera en het Koninklijk Ballet van Vlaanderen, en presenteert grote klassieke werken en nieuwe creaties uit het opera-, dans- en balletrepertoire.
De instelling bezit een collectie verouderde dragers. Het gaat om 519 obsolete en/of onbetrouwbare dragers: cd-r’s, cd-rw’s, zipdisks, SyQuests en magneto-optische schijven. Opera Ballet Vlaanderen beschikt niet meer over leesapparatuur om de inhoud van de dragers te lezen en/of over te zetten op een meer recente drager.
Naar aanleiding van het Resurrection Lab-project startte PACKED vzw met het verzamelen van leesapparatuur om de meest voorkomende verouderde dragers te lezen en te migreren naar hedendaagse gegevensdragers. De collectie van Opera Ballet Vlaanderen was een geschikte case om de oude leestoestellen en de configuratie van het capteerstation te testen.
Status
In juli en augustus 2017 werden 474 dragers behandeld door Emanuel Lorrain (PACKED vzw) en Alex Jaou (jobstudent bij PACKED vzw). 45 dragers werden nog niet behandeld omdat geschikte leesapparatuur nog niet gevonden werd.
Methode
Het doel was om alle bestanden van de obsolete en/of onbetrouwbare dragers te halen en ervoor te zorgen dat de bestanden door Opera Ballet Vlaanderen terug gebruikt en gelezen konden worden. Daarom werd beslist om van alle dragers logical images te maken. Bij het maken van logical images kopieer je alle bestanden van de verouderde drager naar een map op de eigen computer. Die map krijgt een unieke naam en kan door iedere computer (Windows, Linux, macOs) geopend worden.
In sommige gevallen werden naast de logical images ook disk images gemaakt omdat ze een betere manier zijn om data van een drager in zijn volledigheid te bewaren. Bij het maken van een disk image wordt de drager immers bit-per-bit gekopieerd. Niet enkel de inhoud van de drager (de bestanden) wordt dan bewaard, maar ook alle systeeminformatie die aanwezig is op de drager. Door ook die gegevens te bewaren, wordt er zo dicht mogelijk bij de authentieke drager gebleven.
De gekopieerde dragers werden opgenomen in een rekenblad met de volgende kolommen:
- UI (unieke identifier): de unieke identifier bestaat uit initialen van de organisatie (OB) en vervolgens een doorlopende nummering van vier nummers. De nummering startte bij 1 (0001); OB0001 verwijst bijvoorbeeld naar de eerste drager die behandeld werd.
- Instelling: de officiële naam van de instelling, Opera Ballet Vlaanderen.
- Disk type: het type en de capaciteit van de drager.
- Informatie op de drager: alle informatie die op de drager geschreven was, zoals labels of tekst die met stift op de drager aangebracht werd.
- Functioneel?: als de drager gelezen kon worden door de leesapparatuur, werd hij als functioneel beschouwd.
- Gekopieerd?: dit veld duidt aan of alle bestanden van de drager succesvol gekopieerd konden worden. Als niet alle bestanden gekopieerd konden worden, werd dat in het veld ‘notities’ opgenomen.
- Notities: in deze kolom werd andere relevante informatie over de drager opgenomen, bv. dat meerdere schijven in een doosje zaten. Ook werd hier alle informatie genoteerd over beschadigde bestanden, bestanden die niet gekopieerd konden worden of bestanden die een probleem vertoonden tijdens het proces.
Na de captatie werden de dragers onderverdeeld in twee categorieën. De eerste categorie bestaat uit dragers die functioneel waren en volledig gekopieerd konden worden. De tweede categorie bestaat uit dragers die niet gekopieerd konden worden.
Capteren van cd-r en cd-rw
Om de data van cd-r’s en cd-rw’s te kopiëren, hebben we een MacBook Pro uit 2010 gebruikt met als besturingssysteem Mac OS X El Capitan. Als leesapparatuur hebben we een dvd-rom drive uit 2004 gebruikt. Het voordeel aan het gebruik van een dvd-rom is dat die leesapparatuur wel schijven kan lezen, maar er niet op kan schrijven. Dat voorkomt het per ongeluk wijzigen van data op een schijf. De dvd-rom drive heeft een IDE-toegang[1]. Om ervoor te zorgen dat we de IDE konden aansluiten met de USB-toegang van de MacBook, hebben we een IDE-USB kabel gebruikt.
Afbeelding 3: de IDE-USB kabel bevat een molex connector[2] die de dvd-rom drive van voeding voorziet.
De collectie omvatte 227 optische schijven: cd-r’s en cd-rw’s. De meerderheid van die schijven werd bewaard in doosjes. De schijven zijn meestal met stift beschreven en hebben soms labels op de doosjes. 57 optische schijven werden niet in een doosje bewaard; dat resulteerde duidelijk in zichtbare schade in de vorm van krassen. Van de 57 schijven waren er 47 volledig functioneel; zij konden worden gekopieerd. In totaal konden we 31 schijven niet kopiëren, waarvan tien die zich niet in een doosje bevonden. Slechts dertien schijven waren onleesbaar, en werden als niet-functioneel beschouwd.
De meeste problemen bij het kopiëren van de inhoud van de optische schijven werden veroorzaakt door beschadigde bestanden. Die bestanden blokkeerden soms het kopieerproces, waardoor we het proces moesten herstarten zonder de beschadigde bestanden. Een meerderheid van beschadigde bestanden waren afbeeldingen. Die afbeeldingen hadden meestal een zichtbare lijn die de afbeelding doorsneed. Als we er toch in slaagden om het bestand te kopiëren, ontbrak één van de twee delen die gecreëerd werden door deze lijn. Sommige beschadigde bestanden konden we helemaal niet kopiëren. De meerderheid van de beschadigde bestanden hadden de extensie .tiff.
Afbeeldingen 5 en 6: corrupte TIFF-bestanden
Type | Functioneel | Volledig gekopieerd | Niet-functioneel | Niet volledig gekopieerd |
---|---|---|---|---|
cd-r | 214 | 196 | 12 | 30 |
cd-rw | 1 | 1 | 0 | 0 |
totaal | 215 | 197 | 12 | 30 |
Capteren van zipdisks 100
Zipdisks zijn opslagmedia voor computers die ontwikkeld werden door Iomega. Ze verschenen in 1994 op de markt, en waren verkrijgbaar met opslagcapaciteiten van 100MB, 250MB en 750MB. Voor het lezen van zipdisk heb je een zipdisk drive nodig. De zipdisk drives verschillen per opslagcapaciteit: een zipdisk 100 drive kan een zipdisk 100 lezen, maar geen zipdisk 250; een zipdisk 250 drive kan zowel een zipdisk 250 als een zipdisk 100 lezen.
Voor het capteren van de data op de zipdisks 100 hebben we een recente MacBook Pro gebruikt. We hebben zowel een zipdisk 100 drive als een zipdisk 250 drive gebruikt, beiden werden vervaardigd in 2000. De zipdisk drives beschikken over een USB-toegang waardoor we ze via een USB-kabel konden aansluiten op de laptop. Er was geen extra software nodig voor het lezen van de zipdisks. Omdat zipdisks niet over een ingebouwde schrijfbeschermingstab beschikken, hebben we een write blocker gebruikt als tussenstuk tussen de zipdisk drive en de MacBook Pro. Een write blocker vermijdt dat een computer bestanden wegschrijft op de externe schijf, en verzekert daardoor dat de data op de schijf authentiek blijft.
De leesapparatuur functioneerde echter niet goed. De uitwerpfunctie werkte niet waardoor we de toestellen iedere keer moesten loskoppelen en opnieuw aansluiten om de zipdisk handmatig uit het apparaat te verwijderen. Sommige zipdisks konden we op deze manier ook niet verwijderen worden en we moesten ze manueel forceren om ze uit de drive te krijgen. Eén zipdisk konden we niet in de leesapparatuur plaatsen.
De fouten in de bestanden waren gelijkaardig aan de beschadiging die we vastgestelden bij de optische schijven. TIFF-bestanden zorgden voor de meeste fouten. Er was een lijn zichtbaar die de afbeelding in verschillende delen opdeelde wanneer ze op de schijf geopend werden. Wanneer we erin slaagden om dit bestand te kopiëren, ontbrak een van de delen die door deze lijn gecreëerd werd.
In totaal hebben we 228 zipdisks behandeld. 220 van deze zipdisks waren functioneel en 219 konden we volledig kopiëren.
Type | Functioneel | Volledig gekopieerd | Niet-functioneel | Niet volledig gekopieerd |
---|---|---|---|---|
zipdisk 100 | 220 | 219 | 8 | 9 |
totaal | 220 | 219 | 8 | 9 |
Capteren van SyQuest disks
SyQuests zijn opslagmedia voor computers in de vorm van cartridges die ontwikkeld werden door SyQuest Technology. Ze waren verkrijgbaar in verschillende opslagcapaciteiten, maar vooral de versies 44MB, 88MB en 200MB waren populair. Ze werden voornamelijk gebruikt voor zwaardere bestanden, zoals bij desktop publishing of digitale fotografie. Vanaf 1991, bij de introductie van de schijven met opslagcapaciteit van 88MB, waren ze een de facto standaard in de AppleMacintosh-wereld voor het bewaren, verplaatsen en back-uppen van grote hoeveelheden data.[3]
Voor het lezen van SyQuest-disks is een SyQuest-drive nodig. Net zoals bij de zipdisk bestaat er een drive per opslagcapaciteit. Een SyQuest-drive voor 44MB kan enkel disks van maximaal 44MB lezen, die voor 200MB kan cartridges lezen van o.m. 44MB, 88MB en 200MB. SyQuest-drives werden met een computer verbonden via een SCSI-toegang[4]. Omdat we geen oude computer met een SCSI-toegang hadden en omdat hedendaagse laptops niet met deze toegang uitgerust zijn, zochten we naar een ouder computermodel. Zo kwamen we uit bij een Macintosh Powerbook G3 uit 1999. Die beschikt over SCSI-, USB- en PCCard-toegangen, en kan zowel de besturingssystemen Mac OS 9 als Mac OS X draaien. Om de computer te kunnen laten communiceren met het SCSI-toestel was er extra software nodig: SCSIProbe 5.2.1. Daarrvoor was de klassieke Mac omgeving (Mac OS 9) nodig.
We hebben zowel een SyQuest-drive voor 44MB gebruikt als een voor 200MB. De leesapparatuur hebben we rechtstreeks met de computer verbonden via de SCSI-aansluiting. Voordat de SyQuest disks in de apparatuur geplaatst werden, hebben we de schrijfbeveiliging op de schijf geactiveerd zodat de inhoud van de schijf niet gewijzigd kon worden. Sommige SyQuests verschenen bij het insteken in de apparatuur meteen op het bureaublad van de computer. Bij sommige SyQuests was dat niet het geval en moesten we de SCSI-software (SCSI Probe) gebruiken.
In totaal hebben we zestien SyQuests behandeld, waarvan één van 88MB en vijftien van 44MB. Van deze zestien cartridges waren er twaalf functioneel, en konden we er negen volledig kopiëren. Naast de logical images hebben we ook disk images van de schijven gemaakt. Daarvoor hebben we de software Disk Copy gebruikt die standaard op Mac OS 9 geïnstalleerd is. Van de schijven die niet functioneel waren, konden we geen disk image maken. We hebben ook geen disk images gemaakt van de schijven die problemen veroorzaakten tijdens het kopiëren. Van de negen volledig gekopieerde schijven, konden we van acht een disk image maken. In tegenstelling tot de vorige dragers, konden we hier bij de beschadigde bestanden moeilijk een terugkerende eigenschap vaststellen. De enige terugkerende eigenschap zagen we bij twee bestanden die de naam HYDEn.ch droegen en allebei beschadigd waren. De “n” in de bestandsnaam staat voor een cijfer.
Type | Functioneel | Volledig gekopieerd | Niet-functioneel | Niet volledig gekopieerd |
---|---|---|---|---|
SyQuest disk 44MB | 11 | 8 | 4 | 7 |
SyQuest disk 88MB | 1 | 1 | 0 | 0 |
totaal | 12 | 9 | 4 | 7 |
Capteren van magneto-optische disks
Magneto-optische schijven zijn een type optische schijven voor dataopslag die in 5,25”-formaat en 3,5”-formaat bestaan. De 5,25”-versie werd in 1985 op de markt gebracht; de 3,5”-versie bestaat sinds 1991. M.O. disks werden als zeer betrouwbaar beschouwd omdat de leesapparatuur tijdens het schrijven steeds controleert of de geschreven informatie foutloos is. Dat had wel als gevolg dat het schrijven op M.O. disks traag verliep. De 5,25” schijven hadden een capaciteit van 256MB tot 9,2GB, verdeeld over de twee kanten van de schijf. De 3,5” schijven hadden een capaciteit van 128MB tot 1.3GB, en konden slechts langs één kant beschreven worden.
De collectie van Opera Ballet Vlaanderen omvatte 48 M.O disks waarvan er negen een capaciteit hadden van 128MB, 31 een capaciteit van 230MB en acht een capaciteit van 640MB. Het waren allemaal 3,5” schijven. Voor het lezen van M.O. disks heb je een M.O. drive nodig. Leesapparatuur voor 5,25” schijven kan je enkel via SCSI aansluiten met een computer; die voor 3,5” schijven kan beschikken over een SCSI-, IDE- of USB-toegang. Wij gebruikten een M.O. disk unit van Sony uit 1995 die een SCSI-toegang heeft. Om die reden hebben we ook de Macintosh Powerbook G3 als werkstation gebruikt. Om de computer te laten communiceren met de drive hebben we de SCSIProbe 5.2.1. software gebruikt.
Onze apparatuur kon geen 640MB disks of 230MB disks lezen. Het was wel mogelijk om drie 128 MB disks te lezen en volledig te kopiëren. Van die drie schijven hebben we ook disk images gemaakt met Disk Copy. De rest van de 128MB schijven werd bijna onmiddellijk door het leesapparaat uitgeworpen en kan dus beschadigd of functioneel zijn, maar dat konden we nog niet definitief vaststellen omdat de leesapparaatuur niet betrouwbaar was. Van de drie disks die functioneel waren en die we volledig konden kopiëren, was er de volgende dag nog maar één functioneel toen we ze opnieuw probeerden te lezen. De anderen wilden niet inladen in het besturingssysteem, of werden onmiddellijk terug uitgeworpen.
Type | Functioneel | Volledig gekopieerd | Niet-functioneel | Niet volledig gekopieerd |
---|---|---|---|---|
3,5” M.O disk 128MB | 3 | 3 | 0 | 0 |
3,5” M.O disk 230MB | 0 | 0 | 0 | 0 |
3,5” M.O disk 640MB | 0 | 0 | 0 | 0 |
totaal | 3 | 3 | 0 | 0 |
Conclusie
De collectie van Opera Ballet Vlaanderen maakte het ons mogelijk om workflows en opstellingen uit te testen voor de captatie van data op veel voorkomende verouderde en/of onbetrouwbare opslagmedia. Van de 519 dragers die we van de instelling ontvangen hebben, konden we 450 dragers lezen. Hiervan hebben we er 428 volledig gekopieerd naar een hedendaagse gegevensdrager.
Het capteren van de optische schijven ging relatief vlot (94% was functioneel en 86% kon volledig gekopieerd worden). Ook het capteren van de zipdisks ging goed (96% was functioneel en kon volledig gekopieerd worden), maar gezien de problemen die we ervaarden met het uitwerpen van de dragers zijn testen met andere leesapparatuur nodig. In het geval van de SyQuest-disks is het moeilijk om conclusies te trekken omdat de steekproef te klein was. Slechts in 56% van de gevallen konden we de data volledig kopiëren naar een andere gegevensdrager. Aangezien 75% van die schijven functioneel waren, is het echter moeilijk af te leiden of die lage score veroorzaakt werd door de leesapparatuur of door het verval van de drager. Voor het capteren van de magneto-optische schijven hebben we nog geen goede oplossing gevonden.
Type | Functioneel | Volledig gekopieerd | Niet-functioneel | Niet volledig gekopieerd |
---|---|---|---|---|
cd-r en cd-rw | 215 | 197 | 12 | 30 |
zipdisk | 220 | 219 | 8 | 9 |
SyQuest disk | 12 | 9 | 4 | 7 |
magneto-optische disk | 3 | 3 | 0 | 0 |
totaal | 450 | 428 | 24 | 46 |
Referenties
Contactgegevens
Nastasia Vanderperren: nastasia@packed.be