AUTOMATISIERUNG DER ERSCHLIESSUNG MIT METHODEN DER KÜNSTLICHEN INTELLIGENZ

Die ZBW sammelt und erschließt wirtschaftswissenschaftliche Literatur aus aller Welt. Um deren Auffindbarkeit zu gewährleisten, bereitet die ZBW sie formal und inhaltlich auf und versieht sie mit hochqualitativen Metadaten. Diese dienen dem ZBW-eigenen Fachportal EconBiz als Datenbasis und stehen darüber hinaus Dritten zur Nachnutzung zur Verfügung.

Die Anzahl der Publikationen, insbesondere digitaler Publikationen, steigt auch in den Wirtschaftswissenschaften. Gleichzeitig entstehen durch aktuelle Entwicklungen in der Informatik und den Informationswissenschaften neue technologische Möglichkeiten, die wir aufgreifen und in unsere Erschließungsstrategie integrieren, um die Abdeckung und die Qualität unserer Metadaten auch weiterhin sicherzustellen.

Die Automatisierung verschiedener Abläufe im Erschließungsprozess und deren lückenlose Verzahnung mit der intellektuellen Formal- und Sacherschließung ist an der ZBW eine Daueraufgabe. Entsprechend befassen wir uns mit der Frage, wie wir die an der ZBW erarbeiteten Forschungsergebnisse systematisch und nachhaltig als nutzbare Instrumente im produktiven Arbeitsalltag für die Erschließung zur Verfügung stellen können. Wir evaluieren fortlaufend maschinelle Verfahren, entwickeln sie im Rahmen eigener Forschungsarbeit neu oder weiter und überführen sie in den Produktivbetrieb. Dies geschieht in Kooperation mit den betroffenen Einheiten im Haus und im Austausch mit nationalen und internationalen Partnern, die sich mit ähnlichen Fragestellungen und Herausforderungen befassen.

Automatisierung der Sacherschließung (AutoSE)

In einem forschungsbasierten Projekt (AutoIndex, bis 2018) wurde an der ZBW auf der Basis von Open-Source-Lösungen aus dem Machine Learning bereits eine prototypische Eigenlösung für die Inhaltserschließung entwickelt, die mehrere Verfahren zusammenführte und damit eine höhere Performanz erzielte. 2019 wurden die Aktivitäten zur Automatisierung der Sacherschließung offiziell vom Projekt in den Status einer Daueraufgabe erhoben und erhielten einen neuen Namen: AutoSE. Der initiale Auftrag an AutoSE bestand in der Konzeption und Umsetzung einer geeigneten Softwarearchitektur, um die im Rahmen unserer angewandten Forschung erarbeiteten Ergebnisse als produktiven Dienst für die Erschließung zur Verfügung zu stellen.

Seit 2020 nutzt AutoSE das von der Finnischen Nationalbibliothek (NLF) entwickelte Open-Source-Toolkit Annif als Steckrahmen für eine Kombination von verschiedenen State-of-the-Art-Modellen, einschließlich der maßgeschneiderten ZBW-Eigenentwicklung stwfsa. Annif als Kernkomponente wird flankiert mit von uns entwickelten Mechanismen für Hyperparameteroptimierung, Qualitätskontrolle und den Anschluss an die Metadatenworkflows der ZBW. Das Team trägt zur Dissemination und Weiterentwicklung von Annif bei, indem es z.B. zusammen mit der NLF Annif-Tutorials veranstaltet und regelmäßig prüft, ob sich Teile der an der ZBW implementierten Komponenten und Optimierungsmechanismen zur Nachnutzung in Annif integrieren lassen.

Der AutoSE-Dienst an der ZBW ist seit Juli 2021 produktiv. Der Dienst prüft die EconBiz-Datenbasis stündlich auf neue Ressourcen, nimmt sogenannte „Short Texts“ (Titel, Autoren-Keywords) als Input und generiert daraus Deskriptoren aus dem Standardthesaurus Wirtschaft (STW), die die Ressource adäquat zusammenfassen sollen. Durch diverse regelbasierte Nachverarbeitungsschritte wird die Qualität des Outputs weiter erhöht und gesichert. Die qualitätsgeprüften Deskriptoren werden direkt in die EconBiz-Datenbasis zurückgeschrieben und auch über eine Schnittstelle als Vorschläge im "Digitalen Assistenten" (DA-3) angeboten – der DA-3 ist das System, das an der ZBW zur Unterstützung der intellektuellen Inhaltserschließung genutzt wird.

Zentral bei der Entwicklung eines solchen Dienstes ist die Zusammenarbeit mit den Erschließungsexpert*innen der Einrichtung. Im Machine Learning spricht man vom human in the loop, also eine intelligente Verschränkung der Fähigkeiten von Mensch und Maschine zur Lösung eines Problems. So nutzen wir zum Training intellektuell annotierte Daten, der STW und zugehörige Crosskonkordanzen sind intellektuell kuratiert, und die Sacherschließer*innen an der ZBW geben bei ihrer täglichen Arbeit über den DA-3 fortlaufend Bewertungen für die AutoSE-Vorschläge ab, was uns ebenfalls als Grundlage für eine kontinuierliche Weiterentwicklung der bestehenden Lösungen dient.

Forschung und Entwicklung im Kontext AutoSE

Parallel dazu werden im Rahmen unserer angewandten Forschung fortlaufend Experimente zur Weiterentwicklung unserer Methoden durchgeführt. Über die bereits eingesetzten Verfahren hinaus evaluieren wir ständig aktuelle Ergebnisse aus dem Gebiet der Künstlichen Intelligenz, etwa aus dem Deep Learning – z.B. Transformermodelle, welche für eine multilinguale Verschlagwortung besonders vielversprechend sind. Neben dem Generieren von Deskriptorvorschlägen selbst kann man neuronale Netze auch verwenden, um das Zusammenspiel der einzelnen Verfahren zu optimieren, und um eine automatisierte Qualitätsabschätzung auf Dokumentebene vorzunehmen (ein solches von uns entwickeltes Verfahren wird im AutoSE-Produktivbetrieb bereits eingesetzt: qualle), so dass die zu erschließenden Dokumente jeweils dem am besten für sie geeigneten (maschinellen oder intellektuellen) Verfahren zugeführt werden können.

Weitere Themen, die sich zur Automatisierung anbieten, sind z.B. die Extraktion von Strukturelementen aus elektronischen Volltexten (Keywords, Abstracts, Inhaltsverzeichnisse) zur Unterstützung der Erschließung, oder die Extraktion häufig auftretender Terme aus der automatisierten Inhaltserschließung heraus als Kandidatenvokabular für die Weiterentwicklung des STW. In beiden Bereichen bestehen bereits erste Ergebnisse aus studentischen Abschlussarbeiten, und diese Themen sollen für zukünftige Automatisierungsaktivitäten an der ZBW weiter ausgelotet werden.

Publikationen

Für Vorträge und Veröffentlichungen zum Thema siehe Publikationsliste Anna Kasprzik.

Veröffentlichungen der ZBW (auch aus dem Vorläuferprojekt AutoIndex) zum Thema finden Sie auch im ZBW-Publikationsarchiv. Bitte suchen Sie nach dem Stichwort Automatic Subject Indexing.