Risiko Management und Preservation Planning im digitalen Langzeitarchiv der ZBW

Digitale Daten sind grundsätzlich mit dem Risiko behaftet, zukünftig nicht mehr lesbar zu sein. Mögliche Risiken sind:

  • Veraltung des Dateiformats (keine Lesesoftware mehr verfügbar)
  • Datei entspricht nicht den Dateiformatspezifikationen und ist daher nicht (mehr) lesbar
  • Der Bitstream ist nicht mehr intakt (dieses Risiko wird durch die Backup-Strategie und die Integritätssicherung minimiert).

Das digitale Langzeitarchiv der ZBW bietet die Möglichkeit eines detaillierten Risikomanagements. Zu jedem Dateiformat können – sofern bekannt – Risiken definiert werden. Es ist außerdem möglich, zu einem Dateiformat ein Risiko zu definieren, das nur unter bestimmten Umständen für dieses Format ein Risiko darstellt. Zum Beispiel kann ein Dateiformat nur dann ein Risiko für die Langzeitverfügbarkeit darstellen, sofern die Datei nicht den Dateispezifikationen entspricht oder die betreffende Datei eine bestimmte Größe überschreitet.

Das Team Langzeitarchivierung ist stets bestrebt, Risiken detailliert zu formulieren und zu beschreiben. Alle in dem digitalen Archiv gespeicherten Inhalte werden regelmäßig im Rahmen des Risikomanagements geprüft. Die Risiken können zum Beispiel durch die Überführung in ein aktuelleres Dateiformat minimiert werden, das für die Langzeitverfügbarkeit weniger Risiken birgt.

Für Inhalte des Open Access Dokumentenservers EconStor ist die Erlaubnis zur Konvertierung in ein anderes Format in der EconStor Deposit Licence gesichert (Chapter 4).

Für an der ZBW gehostete Nationallizenzen ist dies in der Regel auch gegeben, die meisten Nationallizenzen und Allianzlizenzen enthalten folgenden Passus:

“The Licensee is further permitted to make such copies or re-format the Licensed Material contained in the archival copies supplied by the Publisher in any way to ensure their future preservation and accessibility in accordance with this Licence.”

Für Inhalte, die die ZBW selbst erstellt hat, beispielsweise im Rahmen der Retrodigitalisierung, hat sie selbst das Recht zur Bearbeitung und Konvertierung der Daten.

Mögliche Risiken und Gegenmaßnahmen im digitalen Langzeitarchiv der ZBW:

RisikoGegenmaßnahme(n)
Datei entspricht nicht den Formatspezifikationen, Beispiel: invalides PDF.Erstellung einer weiteren Repräsentation der Datei im gleichen Dateiformat, die den Spezifikationen entspricht und valide ist.
PDF-Datei hat Schriften nicht eingebettet und die korrekte Darstellung kann daher nicht auf jedwedem Lesegerät gewährleistet werden.Nachträgliche Einbettung aller verwendeter Schriften (sofern Schrift nicht urheberrechtlich geschützt ist).
Dateiformaterkennungssoftware kann Dateiformat nicht korrekt erkennen, da hinter dem EOF-Marker (End of File, der das Ende der Datei markiert) noch Daten kommen.Mittels eines Scripts die nicht erforderlichen und störenden Daten hinter dem EOF-Marker löschen, so dass das Format wieder korrekt und sicher erkannt werden kann.
Dateien sind nicht vollständig, zum Beispiel Bildteile fehlen und es ist kein EOF-Marker enthalten.Sofern möglich: Anforderung der vollständigen Datei beim Datenproduzenten.
Alternativ: Neuabspeicherung der Datei, so dass diese in sich wieder stimmig ist (inkl. EOF-Marker), auch wenn natürlich nach wie vor die Bildteile fehlen. Dennoch können Dateien ohne EOF-Marker von bestimmter Lesesoftware nicht gelesen werden und stellen daher ein besonderes Risiko für die Langzeitverfügbarkeit dar.
Dateiformat ist der verwendeten Formatbibliothek nicht bekannt.Sofern ein ausreichend großes Sample vorhanden ist, Formatbibliothek erweitern.
Alternativ: Dateien, deren Format nicht bekannt ist, werden als besonders risikobehaftet angesehen, da die detaillierten Risiken nicht bekannt sind. So gut wie möglich dokumentieren.

 

Solcherlei Gegenmaßnahmen werden im Digitalen Langzeitarchiv innerhalb des Preservation Planning geplant und  durchgeführt. Zum Preservation Planning gehören alle Maßnahmen, die getroffen werden, um die Langzeitverfügbarkeit der archivierten Inhalte sicherzustellen.

Alle im Zuge des Preservation Planning durchgeführten Aktionen werden im digitalen Archiv nachhaltig dokumentiert, so auch der Preservation Plan selbst. Dies gilt auch für verwendete Software, die mit archiviert wird, um alle Bearbeitungen und Konvertierungen auch nachhaltig so transparent wie möglich zu dokumentieren.

Die Originaldatei wird grundsätzlich aufbewahrt, selbst wenn diese veraltet und nicht mehr ohne weiteres lesbar ist. Alle zusätzlich entstandenen Derivate gelten als weitere Repräsentationen und werden zusätzlich aber nicht stattdessen archiviert und bewahrt.

Der detaillierte Ablauf des Preservation Planning im digitalen Archiv basierend auf der genutzten Software Rosetta ist auf der Webseite der Technischen Informationsbibliothek (TIB) - Leibniz-Informationszentrum Technik und Naturwissenschaften und Universitätsbibliothek dokumentiert. Die ZBW arbeitet im Bereich der Langzeitarchivierung eng mit der TIB zusammen.

Im Zuge der Preservation Watch wird außerdem stets beobachtet, welche Risiken für welche Dateiformate gelten könnten und welche Gegenmaßnahmen hier zur Best Practice gehören. Die Workflows werden stets aktualisiert, evaluiert und angepasst, mit dem Ziel, die archivierten Daten langfristig lesbar für die Nutzer:innen der ZBW zu halten.