Automatisierung der Erschließung mit Methoden der Künstlichen Intelligenz

Die ZBW sammelt und erschließt wirtschaftswissenschaftliche Literatur aus aller Welt. Um deren Auffindbarkeit zu gewährleisten, versehen wir sie mit hochqualitativen Metadaten. Diese dienen dem ZBW-Fachportal EconBiz als Datenbasis und stehen darüber hinaus Dritten zur Nachnutzung zur Verfügung.

Die Anzahl der Publikationen steigt auch in den Wirtschaftswissenschaften. Gleichzeitig entstehen fortlaufend neue technologische Möglichkeiten, die wir aufgreifen und evaluieren. Geeignete Verfahren entwickeln wir im Rahmen eigener Forschungsarbeit weiter und überführen sie in nutzbare Instrumente für die Erschließung, um die Abdeckung und Qualität unserer Metadaten weiterhin sicherzustellen.

Automatisierung der Sacherschließung (AutoSE)

Im Projekt AutoIndex wurde an der ZBW auf der Basis von Open-Source-Lösungen aus dem Machine Learning bereits eine prototypische Eigenlösung entwickelt. 2019 wurde die Automatisierung der Sacherschließung offiziell in den Status einer Daueraufgabe erhoben: AutoSE. Der zusätzliche Auftrag bestand im Aufbau einer Softwarearchitektur zur Bereitstellung von ausgewählten Machine-Learning-Verfahren aus unserer angewandten Forschung als produktiven Dienst für die Erschließung.

Seit 2020 nutzt AutoSE das von der Finnischen Nationalbibliothek (NLF) entwickelte Open-Source-Toolkit Annif als Rahmen für eine Kombination von State-of-the-Art-Modellen, einschließlich der ZBW-Eigenentwicklung stwfsa. Die Kernkomponente Annif wird flankiert mit von uns entwickelten Mechanismen für Parameteroptimierung, Qualitätskontrolle und den Anschluss an die Metadatenworkflows der ZBW. Das Team trägt zur Dissemination und Weiterentwicklung von Annif bei, indem es zum Beispiel mit der NLF Tutorials veranstaltet und regelmäßig prüft, ob sich Teile der an der ZBW implementierten Komponenten zur Nachnutzung in Annif integrieren lassen.

Der AutoSE-Dienst ist seit Juli 2021 produktiv. Er prüft die EconBiz-Datenbasis stündlich auf neue Ressourcen und weist ihnen anhand von Text aus den Metadaten passende Deskriptoren aus dem Standardthesaurus Wirtschaft (STW) zu. Bei Bestehen einer Qualitätsprüfung werden diese direkt in die Datenbasis zurückgeschrieben. Zusätzlich werden sie über eine Schnittstelle als Vorschläge für die intellektuelle Sacherschließung im "Digitalen Assistenten" (DA-3) angeboten.

Für uns zentral ist die Zusammenarbeit mit den Erschließenden. Im Machine Learning spricht man vom human in the loop, dem Zusammenspiel von Mensch und Maschine zur Lösung eines Problems. So nutzen wir zum Training intellektuell annotierte Daten, der STW ist intellektuell kuratiert, und die Sacherschließenden geben bei ihrer Arbeit über den DA-3 durchgängig Bewertungen für die AutoSE-Vorschläge ab, was uns als Qualitätssicherungsinstrument dient.

Forschung und Entwicklung im Kontext AutoSE

Parallel dazu führen wir im Rahmen unserer angewandten Forschung Experimente zur Weiterentwicklung unserer Methoden durch. Über die bereits eingesetzten Verfahren hinaus evaluieren wir aktuelle Ergebnisse aus der Künstlichen Intelligenz, etwa aus dem Deep Learning – zum Beispiel Transformermodelle, welche sich für eine multilinguale Verschlagwortung anbieten. Neben dem Ermitteln von Deskriptoren kann man maschinelle Verfahren auch verwenden, um das Zusammenspiel der einzelnen Modelle zu optimieren und um eine automatisierte Qualitätsabschätzung auf Dokumentebene vorzunehmen (ein von uns entwickeltes Verfahren setzen wir bereits produktiv ein: qualle), so dass Dokumente jeweils dem am besten geeigneten (maschinellen oder intellektuellen) Erschließungsverfahren zugeführt werden können.

Publikationen

Für Vorträge und Veröffentlichungen zum Thema siehe Publikationsliste Anna Kasprzik.

Veröffentlichungen der ZBW (auch aus dem Vorläuferprojekt AutoIndex) zum Thema finden Sie auch im ZBW-Publikationsarchiv. Bitte suchen Sie nach dem Stichwort Automatic Subject Indexing.