SODA:Uniformiseer de bestandsnamen

Uit Meemoo Kennisbank
Naar navigatie springen Naar zoeken springen

Workflow algemeen schonen.jpg

Uniformiseer bestandsnamen

Benodigdheden

Wat?

In deze stap worden de bestandsnamen genormaliseerd en geüniformiseerd. Spaties, leestekens en vreemde tekens worden verwijderd of vervangen door underscores. Diakritische tekens worden vervangen door 'gewone' tekens. Gebruik bij normaliseren enkel de tekens: ABCDEFGHIJKLMNOPQRSTUVWXYZ abcdefghijklmnopqrstuvwxyz 1234567890 _

Waarom?

Voordat de digitale bestanden in een container of in een depot kunnen worden opgenomen, moeten de bestandsnamen aan een aantal vormelijke kenmerken voldoen. Dit is noodzakelijk om automatische controles toe te laten.

Wanneer?

Dit gebeurt voordat de bestanden in een container worden opgenomen en is de voorlaatste stap in het schonen.

Hoe?

Omdat het hernoemen van de bestanden gewoonlijk in bulk gebeurt, gebruik je hiervoor een tool.

Archivematica

Wanneer je Archivematica gebruikt, zal de uniformisering van de bestandsnamen volledig automatisch gebeuren. Dit impliceert dat je als gebruiker niet de keuze hebt welke tekens vervangen moeten worden:

Oorspronkelijk Na uniformiseren met Archivematica
Spatie _
- -
\+*"?!':{}<>[]^&~,$@%=# _
( ) ( )
µ u
ä â á à a
ë ê é è e
ï î í ì i
ö ô ó ò o
ü û ú ù u
ç c
²³ 2 3
° deg
§ SS
£ PS

UGent SIP-Creator

Van de UGent SIP-Creator bestaat reeds een volledige handleiding. Met het oog op de toepassing van deze tool binnen deze stap van SODA, worden hier een aantal specifieke tips voor het gebruik gegeven. Dit zijn slechts aanvullingen op de eigenlijke handleiding, lees deze daarom eerst volledig na!

Het hernoemen van bestanden is binnen UGent SIP-Creator een optionele stap. In de praktijk zal je archiefoverdracht echter altijd bestandsnamen bevatten die niet geschikt zijn om in een Bag op te nemen. Hierdoor zal het voor deze tool onmogelijk zijn de data aan je Bag toe te voegen. Het hernoemen van bestanden is dus een noodzakelijke stap binnen SODA. De interface om bestanden te hernoemen (via de knop 'open renamer'), biedt twee functies: hernoemen en hernummeren. We gebruiken in deze context enkel de eerste functie.

Vervang spaties

  1. Selecteer de map met het geschoonde archief in de interface
  2. Instellingen
    • Templates: 'Verwijder spaties'
    • Vervang: typ in dit veld een spatie
    • Door: typ een _
    • Negeer grote letters: UIT
    • Pas toe op onderliggende ...: AAN
    • Voorvoegsel: laat dit veld leeg
    • Navoegsel: laat dit veld leeg
    • Reguliere expressie: UIT
    • Bij fout: 'overslaan'
  3. Klik eventueel op 'simuleer', om te controleren
  4. Klik op 'OK'

Verwijder leestekens

  1. Selecteer de map met het geschoonde archief in de interface
  2. Instellingen
    • Templates: 'verwijder leestekens'
    • Vervang: Dit veld wordt nu automatisch ingevuld
    • Door: typ een _, wanneer je leestekens wenst te vervangen door een liggend streepje, of typ niets, wanneer je ze wenst te verwijderen.
    • Negeer grote letters: UIT
    • Pas toe op onderliggende ...: AAN
    • Voorvoegsel: laat dit veld leeg
    • Navoegsel: laat dit veld leeg
    • Reguliere expressie: AAN
    • Bij fout: 'overslaan'
  3. Klik eventueel op 'simuleer', om te controleren
  4. Klik op 'OK'

Overgebleven niet-conforme tekens verwijderen

Het automatische verwijderen van leestekens (zie hier boven), laat nog verschillende tekens door de mazen van het net glippen.

Open de renamer en voeg alle mogelijke tekens afzonderlijk in om ze te laten vervangen door een alternatief.

  • Instellingen voor het verwijderen van overgebleven karakters:
    • Templates: 'Verwijder leestekens'
    • Negeer grote letters: UIT
    • Pas toe op onderliggende ...: AAN
    • Voorvoegsel: laat dit veld leeg
    • Navoegsel: laat dit veld leeg
    • Reguliere expressie: AAN
    • Bij fout: 'overslaan'

De kans is groot dat in je bestandsnamen letters met accenten voorkomen. Deze moeten worden vervangen door hun acccentloze variant. Voer daarom het volgende in in de velden 'Vervang' en 'Door'

  • Vervang: [äáàâ]
    • Door: a
  • Vervang: [ëéèê]
    • Door: e
  • Vervang: [ïíìî]
    • Door: i
  • Vervang: [öóòô]
    • Door: o
  • Vervang: [üúùû]
    • Door: u
  • Vervang: ç
    • Door: c

Er zijn ook andere tekens die de renamer niet automatisch verwijdert. Deze kan je vervangen door een liggend streepje, door het volgende in te vullen:

  • Vervang: [´`\^&~,µ€\$£§@%°=#²³]+
    • Door: _

Nu zouden al je bestandsnamen geschikt moeten zijn om in een Containerbestand op te nemen.

Test

Je kan nu testen of de gegevens in een bag kunnen worden opgenomen (je hoeft nog niet klaar te zijn om de bag op te maken)

  • Sluit de renamer interface en klik op 'nieuwe bag'
  • Klik op 'ok'
  • Klik naast 'Data toevoegen' op 'voeg toe', selecteer je hernoemde archiefbestanden en probeer ze toe te voegen.
    • Wanneer dit lukt, zijn de namen van je bestanden in orde.
    • Wanneer je een foutmelding te zien krijgt, zijn de namen nog niet cross-platvorm bruikbaar.