E-mails bewaren
Deze richtlijn handelt over het archiveren van e-mails en is zowel van toepassing op e-mails die je ontvangt in een lokale e-mailclient als op webmail. Het archiveren van e-mails is het duurzaam bewaren en beheren van elektronisch postverkeer. Hoewel het versturen van e-mail gestandaardiseerd is door middel van protocols en regels van het Internet Engineering Task Force (IETF), bestaat er geen standaardformaat voor het bewaren van e-mails op e-mailservers en in e-mailclients. Dit kan betekenen dat niet alle metadata bewaard worden en kan op lange termijn voor leesbaarheidsproblemen zorgen als de e-mailclient niet meer beschikbaar zou zijn.
Richtlijnen
Verkrijg toegang tot de e-mails
E-mailservers en e-mailaccounts worden afgeschermd met een wachtwoord. Je bent daarom afhankelijk van de archiefvormer om hier toegang tot te krijgen. Daarbij zijn e-mails onderhevig aan de wetten der bescherming van de privacy, de communicatievrijheid en het telecommunicatiegeheim. Je hebt steeds toestemming nodig om deze documenten te mogen verwerken. Doordat openbare instelingen de verplichting hebben om bestuursdocumenten te archiveren, kunnen zij wel zonder toestemming e-mails archiveren. Omdat mailboxen ook privéberichten kunnen bevatten, is het echter niet mogelijk om zomaar alle e-mails te archiveren. Omwille van de Telecomwet moeten alle betrokkenen weten dat hun e-mailcorrespondentie gearchiveerd wordt.
Minimumrichtlijn
- Verkrijg een schriftelijke toestemming van de archiefvormer om e-mails te mogen lezen en verwerken.
- Verkrijg een export van alle e-mails (inkomend en uitgaand) uit de mailbox van de archiefvormer.
Aanbevolen richtlijn
- Verkrijg het paswoord tot de e-mailserver of de e-mailclient om zelf de e-mails te kunnen exporteren.
Selecteer het bestandsformaat
Om e-mails te archiveren dienen de e-mails lokaal opgeslagen te worden. Wanneer de archiefvormer gebruik maakt van een online mailbox, zoals Gmail, haal je de e-mails binnen via een e-mailclient en exporteer je ze vervolgens naar een lokale harde schijf. Gebruik als bestandsformaat een open en breed ondersteund formaat dat de essentiële kenmerken van de e-mails bewaart. Indien de archiefvormer zelf de e-mailserver beheert, worden de e-mails bij voorkeur door de systeembeheerder rechtstreeks van de server gehaald. Omdat er geen standaard bewaarformaat bestaat, is het niet zeker of alle metadata bewaard worden in de e-mailclient, waardoor het mogelijk is dat er meer metadata aanwezig zijn in de e-mails op de server.
Minimumrichtlijn
- Maak gebruik van het IMAP-protocol[1] om de e-mails van de server te halen. IMAP is een standaardprotocol om e-mails van de server naar een e-mailclient te transporteren. IMAP houdt de mappenstructuur van alle gebruikers bij en zorgt ervoor dat e-mails op de server bewaard blijven wanneer ze opgehaald worden.[2]
- Vermijd het POP-protocol (Post Office Protocol)[3] voor het ophalen van e-mails. In tegenstelling tot IMAP vernietigt POP e-mails van de server vanaf het moment dat de e-mail opgehaald is.
- Vermijd het opslaan van e-mails in HTML, PDF/A en TXT. De verborgen metadata uit de hoofding van de e-mails worden door deze bestandsformaten niet bewaard. Het is tevens niet mogelijk om deze bestanden via een e-mailprogramma te openen.
- E-mailberichten zijn standaard gecodeerd in ASCII. Het is bijgevolg niet nodig om ze naar UTF-8 te transcoderen.
Aanbevolen richtlijn
- Gebruik IMAPS als protocol voor het ophalen van e-mail. Dit is een vorm van IMAP over een versleutelde (en dus beveiligde) verbinding.
- Gebruik EML[4], dit is een de facto standaard voor de bewaring van e-mails. Elke e-mail wordt als een apart bestand opgeslagen en wordt bewaard in het oorspronkelijke Internet Message Format (IMF)[5] waardoor alle metadata bewaard blijven. Je kan EML-bestanden openen in de meeste e-mailclients en in tekstverwerkingsprogramma's. MIME-content wordt ofwel opgeslagen in het EML-bestand, of er wordt naar verwezen door middel van een 'pointer'. MIME is een protocol om o.a. bijlagen en niet-ASCII-tekens via mail te verzenden.
- Of gebruik MBOX[6], dit is een de facto standaard voor de bewaring van e-mails. Het e-mailarchief van een volledige mailbox wordt in één tekstbestand opgeslagen. MBOX is een aanbevolen formaat als je e-mails geordend volgens de mappenstructuur van de e-mailclient wil opslaan. De e-mails worden opgeslagen volgens het oorspronkelijke Internet Message Format (IMF). Ook MIME-content wordt binnen het MBOX-bestand opgeslagen.[7]
- In Microsoft Outlook is het niet mogelijk om in EML of MBOX te exporteren. Exporteer daarom de bestanden in het propriëtaire bestandsformaat MSG en migreer ze dan vervolgens via een migratietool naar EML.
- Het aanbevolen archiveringsformaat voor e-mail is XML. Een aantal organisaties hebben XML-modellen uitgewerkt, zoals het XML-schema voor e-mail van Edavid en het Email Account Schema[8], waarin de belangrijkste metadata bewaard worden.
Bewaar alle essentiële gegevens van e-mails
Centrale concepten bij archivering zijn authenticiteit en integriteit. Authenticiteit verzekert dat een archiefstuk is wat het beweert te zijn, en integriteit verzekert dat de inhoud van een archiefstuk volledig en waar is. Om deze twee eigenschappen bij e-mails te preserveren, dienen volgende elementen bewaard te worden:
- Ontstaanscontext: dit zijn alle gegevens die de functie van een archiefstuk weergeven in relatie tot de activiteiten van de archiefvormer. Het verduidelijkt m.a.w. het onderwerp of de zaak waarop de e-mail betrekking heeft, de herkomst en de onderlinge samenhang tussen verwante e-mails, bijlagen en archiefdocumenten.
- Structuur geeft de relaties weer tussen de verschillende componenten van een e-mail (header, body en bijlagen) en tussen verwante e-mails (bv. bij het beantwoorden of doorsturen van een e-mail).
- Inhoud: bestaat uit het onderwerp van de e-mail, de tekst die verstuurd werd en de bijlagen.
- Verschijningsvorm: lay-out is geen essentieel gegeven bij e-mails. De lay-out is immers afhankelijk van de e-mailclient en het toestel waarmee je de e-mail opent. Wanneer een e-mail echter een artistieke waarde heeft of wanneer via de opmaak de structuur of inhoud van een e-mailbericht duidelijk wordt, kan het wel belangrijk zijn om ook dit aspect te bewaren.
Minimumrichtlijn
- Bewaar alle gegevens van het Internet Message Format (IMF). Dit standaardformaat maakt het mogelijk dat e-mails tussen verschillende e-mailclients uitgewisseld worden. Het formaat wordt gedefinieerd door het RFC 5322 dat de basisvelden en het formaat voor headers en bodies bepaalt.
- Bewaar alle headermetadata. Hierin worden alle transmissiegegevens opgeslagen. Je kan bv. zien langs welke servers de e-mail gepasseerd is. De header is verborgen en zie je niet wanneer je de e-mail in een e-mailclient opent. De headermetadata geven je informatie over volgende elementen:[9]
- Ontstaanscontext: In de headermetadata kan je lezen wie de e-mail verstuurd heeft, de software waarin de e-mail opgesteld werd, de datum en het tijdstip van transmissie en de personen aan wie de e-mail verzonden werd.
- Structurele informatie die de e-mail uniek kan identificeren en die de relatie weergeeft met betrekking tot de keten van e-mails waartoe de e-mail behoort.
- Informatie over inhoud en verschijningsvorm.
- Bewaar de context van de e-mails door ze in een mappenstructuur op te slagen. Dit kan op twee manieren:
- Breng de EML-bestanden onder in een gestructureerde mappenstructuur.
- Exporteer alle mappen uit de e-mailclient door het MBOX-formaat te gebruiken.
- Wanneer bijlagen verstuurd worden in een bestandsformaat dat niet duurzaam is, dreigt het gevaar van obsoletie. Ook wanneer e-mails in HTML opgesteld werden, gebeurt het dat afbeeldingen op een externe webserver staan, omdat het bericht anders te groot wordt. Deze afbeeldingen kan je verliezen, wanneer je ze niet apart bewaart. Bewaar mails, afbeeldingen en bijlagen daarom apart, maar zorg wel dat de relatie tussen de twee duidelijk is. Dit kan door ze eenzelfde bestandsnaam te geven en door dit te registreren in de structurele metadata (Zie 'Bewaar de e-mails duurzaam'). Kies een geschikt archiveringsformaat voor de bijlage.
Aanbevolen richtlijn
- Bewaar alle Standaard:MIME-headermetadata. Oorspronkelijk was het enkel mogelijk om 7-bits gegevens in ASCII te versturen. Het MIME-protocol is een aanvulling hierop en maakt het mogelijk om niet-ASCII-tekens en binaire bestanden, zoals o.a. afbeeldingen, geluidsbestanden en video's per e-mail te versturen.[10] Het legt de structuur en codering van e-mailberichten vast. De MIME-metadata bevatten o.a. essentiële informatie voor het bewaren van bijlagen.
- Bewaar alle gegevens van het RFC 3864. Dit is opgesteld door het IETF als een Best Current Practice om extra velden binnen de header te standaardiseren.
Bewaar de e-mails duurzaam
Verzeker je dat de e-mails duurzaam bewaard worden.
Minimumrichtlijn
- Volg de richtlijn Duurzaam archiveren
- Voeg extra metadata toe om de toegankelijkheid van het e-mailarchief te verhogen en de duurzame bewaring ervan te garanderen[11]:
- Bepaal welke descriptieve metadata worden bewaard.
- Bepaal welke administratieve en structurele metadata worden bewaard.
- Gebruik een gestructureerd tekstbestand (vb. CSV, XML, databankbestand) om deze metadata te bewaren.
Aanbevolen richtlijn
- Bewaar de gearchiveerde e-mails en de metadata samen in een bagIt. Hierbij worden het archief en de bijhorende metadata op een duurzame manier bewaard in een containerbestand.
- Bewaar de gearchiveerde e-mails in een OAIS compliant digitaal depot.
- Gebruik de PREMIS en METS datastructuur om administratieve, descriptieve en structurele metadata vast te leggen.
- Gebruik EAD en EAC om descriptieve metadata vast te leggen.
- ↑ Zie 'Internet Message Procotol', Wikipedia, https://en.wikipedia.org/wiki/Internet_Message_Access_Protocol.
- ↑ C.J. Prom, 'Preserving E-mail', DPC - Technology Watch Report 11-01, 2011: E-mails die benaderd worden via IMAP zijn eenvoudiger om te bewaren.
- ↑ Zie 'Post Office Protocol', Wikipedia, https://nl.wikipedia.org/wiki/Post_Office_Protocol.
- ↑ Zie Library of Congress, 'Email (Electronic Mail Format)': http://www.digitalpreservation.gov/formats/fdd/fdd000388.shtml.
- ↑ Het Internet Message Format is een standaardformaat voor het transport van e-mailberichten die het mogelijk maakt dat een e-mail geopend wordt in verschillende e-mailclients. Zie Library of Congress, 'Internet Message Format': http://www.digitalpreservation.gov/formats/fdd/fdd000393.shtml
- ↑ Zie Library of Congress, 'MBOX Email Format': http://www.digitalpreservation.gov/formats/fdd/fdd000383.shtml.
- ↑ Prom (2011): MBOX en EML hebben de status van de facto standaard. Organisaties die erin slagen om e-mail te bewaren in EML of MBOX hebben een grote stap voorwaarts gezet in het preserveren van e-mail.
- ↑ Prom (2011): het XML-formaat ondersteunt de langetermijnbewaring van e-mail doordat het toelaat de e-mailberichten op te slaan in zelfbeschrijvende bestanden. Het E-mail Account Schema is goed ontworpen en biedt een zeer goede implemenatie van e-mails in XML.
- ↑ Voor meer informatie, zie InSPECT, 'Significant Properties Testing Report: Electronic mail': http://www.significantproperties.org.uk/email-testingreport.html#_Toc254545915
- ↑ Het MIME-formaat wordt gedefinieerd door RFC 2045, RFC 2046, RFC 2047, RFC 2049, RFC 4288 en RFC 4289.
- ↑ Prom (2011): Instellingen moeten er naar streven om de authenticiteit van de bestanden te behouden door het registreren van descriptieve en preservatiemetadata van de bestanden.