Metadaten im digitalen Langzeitarchiv der ZBW

In der digitalen Langzeitarchivierung  sind Metadaten sowohl zum Auffinden von Informationen als auch für die Sicherstellung des langfristigen Zugangs von großer Wichtigkeit. Man unterscheidet hierbei zwischen bibliografischen, technischen, administrativen, strukturellen und rechtlichen Metadaten.

Bibliografische Metadaten

Alle bereits erfassten beschreibenden Metadaten werden gemeinsam mit allen Daten und Dateien, die zu einer intellektuellen Entität gehören, an das Archiv übergeben. Dies betrifft auch die Katalogdaten im Gemeinsamen Verbundkatalog:  Sofern für das archivierte Objekt zum Zeitpunkt der Übergabe an das digitale Langzeitarchiv ein Eintrag im Gemeinsamen Verbundkatalog besteht, werden die dort erfassten Metadaten in das Archiv übernommen. Innerhalb des Digitalen Langzeitarchivs wird für die beschreibenden Metadaten das Datenformat Dublin Core verwendet. Sofern die ursprünglichen Metadaten in einem anderen Format vorliegen – wie beispielsweise im PICA-Format im Falle des GVK – werden diese auf Dublin Core gemappt. Für PICA zu Dublin Core wurde eigens hierfür von der Abteilung „A2 Integrierte Erwerbung & Katalogisierung“ der ZBW ein Mapping erstellt.  

Technische Metadaten

Darüber hinaus werden für die Sicherstellung der langfristigen Lesbarkeit während der Überführung in das digitale Archiv technische Metadaten automatisiert erhoben. Hierzu gehören:

  • Dateiname
  • Originalpfad
  • Dateigröße
  • Dateiformat und Version des Dateiformats
  • Dateiwohlgeformtheit und Validität
  • Checksummen
  • Ergebnis der Virusprüfung
  • Erstelldatum der Datei

Sofern die Ermittlung eines Metadatums fehlschlägt, stoppt die Übernahme der Daten in das Archiv und das verantwortliche Personal erschließt manuell die fehlenden Daten oder dokumentiert alternativ das Fehlen dieser Daten. Gegebenenfalls kann ein fehlendes Metadatum (Beispiel: Dateiformat nicht bekannt) ein Risiko für die Langzeitverfügbarkeit darstellen und daher im Risiko Management besondere Beachtung finden.

Administrative Metadaten

Veränderungen und Aktualisierungen der Objekte werden ebenfalls stets in den Metadaten festgehalten. Hierbei wird auch festgehalten, welche Programme/Tools zur Bearbeitung oder Migration der Dateien verwendet worden sind und welche Mitarbeiter:in die Änderung vorgenommen hat.

Darüber hinaus wird die Wiederauffindbarkeit der Objekte im System durch persistente Identifier sichergestellt. Für die Materialien aus DSpace-Dokumentenservern wird hier beispielsweise der Handle verwendet.  Darüber hinaus verwendet das System Rosetta noch systemeigene Identifier.

Strukturelle Metadaten

Für einige Sammlungen sind die Beziehung der archivierten Einheiten untereinander und die hierarchische Anordnung ebenfalls bedeutsam. Solche Sammlungen werden in sogenannten Collections im Archiv abgebildet. Innerhalb von Collections sind auch mehrere Sub-Collections möglich, um die Hierarchie und Struktur feiner abbilden zu können.

Sofern innerhalb der archivierten Einheit auch die Struktur und die Beziehungen der Dateien untereinander von Bedeutung sind, werden auch die Original-Dateipfade in den Metadaten abgebildet.

Metadaten zu Access Rights

Die Informationen zu Zugangsrechten und notwendigen Einschränkungen, die den Zugriff betreffen, werden innerhalb von Rosetta durch die Access Right Policies (Richtlinien über Zugangsrechte) geregelt.  In der Regel wird für einen Workflow eine bestimmte Access Right Policy ausgewählt, die dann jeder archivierten Einheit automatisch zugewiesen wird. Es ist aber auch möglich, die Access Right Policy für eine Einheit individuell einzustellen.

Es handelt sich beim ZBW Langzeitarchiv um ein „dark archive“ ohne Zugriffsmöglichkeit von außen. Der Nutzerzugriff erfolgt über andere Plattformen. Daher kann generell nur das Team Langzeitarchivierung  der ZBW auf die Inhalte zugreifen. Da es nicht ausgeschlossen ist, dass eines Tages das Digitale Archiv auch für den Zugriff von außen geöffnet werden könnte, erhalten jedoch Sammlungen mit beschränkten Zugriffsrechten bereits bei der Überführung in das Archiv eigene Access Right Policies, die das Konfigurieren von Zugangsbeschränkungen jederzeit ermöglichen.