MASCHINELLE METADATENGENERIERUNG

Die ZBW sammelt und erschließt wirtschaftswissenschaftliche Literatur und Fachinformationen aus aller Welt. Die ZBW bereitet sie inhaltlich und formal auf und erstellt qualitativ hochwertige Metadaten. Diese werden im ZBW-eigenen Fachportal EconBiz genutzt und stehen darüber hinaus Dritten zur Nachnutzung zur Verfügung.

Die Publikationszahlen in den Wirtschaftswissenschaften steigen. Gleichzeitig steigt die Zahl der digitalen Publikationen und neue technische Möglichkeiten entstehen. Die Strategie zur Erschließung wirtschaftswissenschaftlicher Publikationen berücksichtigt diese Veränderungen. Die AG Automatische Indexierung in der ZBW sucht in Ergänzung zur manuellen bzw. intellektuellen Formal- und Sacherschließung nach maschinellen Methoden, um die gewohnte ZBW-Qualität auch bei steigenden Publikationen zu gewährleisten. Die ZBW evaluiert fortlaufend maschinelle Verfahren, entwickelt sie im Rahmen eigener Forschungsarbeit neu oder weiter, und setzt sie produktiv bei der laufenden Erschließung ein.

Formalerschließung

Eine Besonderheit der ZBW stellt die Erfassung von unselbständigen Werken dar. Im Jahr werden durchschnittlich ca. 65.000 Metadatensätze dieses Dokumenttyps angelegt. Die ZBW identifiziert und testet Verfahren, die (teil-)automatisiert Metadaten für Aufsätze erstellen.

Bislang hat die ZBW Verfahren geprüft, bei denen Metadaten für gedruckte Aufsätze aus den gescannten und verarbeiteten Inhaltsverzeichnissen der einzelnen Hefte erstellt werden. Für digitale Aufsätze testete die ZBW Methoden, die bereits im Web verfügbare Nachweise nachnutzen. Ein Forschungsansatz der ZBW ist es, Text- und Strukturerkennungsverfahren zu nutzen, um damit formale und inhaltliche Metadaten-Elemente gezielt maschinell aus elektronischen Volltexten zu extrahieren.

Sacherschließung

In der Sacherschließung arbeitet die ZBW mit Werkzeugen, Verfahren und Prozessen für die (semi-)automatische Indexierung, doch auch Qualitätsmanagement und urheberrechtliche Aspekte im Bereich des Text und Data Mining spielen eine bedeutende Rolle.

Praxis

Die ZBW setzt ein System mit Fusion-Architektur für die automatische Indexierung ein. Hierbei werden assoziative und lexikalische Methoden so kombiniert, dass positive Eigenschaften der einzelnen Verfahren möglichst erhalten bleiben. Diese Systemarchitektur ermöglicht es auch, individuelle Qualitätsanforderungen durch Nachverarbeitungsschritte zu gewährleisten.

Ein Team aus Fachreferentinnen und Fachreferenten mit Indexierungserfahrung überprüft mit regelmäßigen Stichproben und Bewertungen die Qualität der automatischen Indexierung und unterstützt die Weiterentwicklung der Algorithmen.

Die aktuellen Produktivverfahren stützen sich auf wenige inhaltsbeschreibende Metadaten wie Titel und Keywords. Spezielle Filterregeln sorgen dafür, dass sowohl Print- als auch Online-Teilbestände der ZBW damit präzise und nahezu vollständig indexiert werden können.

Forschung und Entwicklung

Die Analyse von Indexierungsmethoden hat die zuvor genannte Fusion-Architektur hervorgebracht. Hier liegt der Schwerpunkt der forschenden Tätigkeit in der AG. Die besondere Dynamik der Themen in der wirtschaftswissenschaftlichen Forschung muss beachtet werden. Bei den Verfahren geht es im Wesentlichen darum, sehr kurze textuelle Beschreibungen zu verarbeiten. Die Sicherstellung der Qualität ist ebenfalls Gegenstand der Untersuchungen.

Die AG Automatische Indexierung betrachtet aktuellste Forschungsergebnisse aus dem Arbeitsbereich Knowledge Discovery der ZBW sowie anderer Institute und prüft sie auf Relevanz für den Praxiseinsatz. Mehrere studentische Arbeiten haben unterschiedliche Konfigurationen von Verfahren untersucht und einzelne Methoden zur Titelverarbeitung analysiert und somit einen Beitrag zum Forschungstransfer innerhalb der ZBW geleistet.