Wissenssuche im Schnellvorlauf

Forschendenteam aus ZBW und HPI entwickelt mit DECENT ein Modell zur schnellen Informationsverarbeitung

Kiel, Hamburg, 26. Oktober 2023: In einem gemeinsamen Forschungsprojekt der ZBW – Leibniz-Informationszentrum Wirtschaft und des Hasso-Plattner-Instituts (HPI) haben Forscher ein Computermodell namens „DECENT“ entwickelt, das Texte nach wichtigen Informationen durchsuchen kann. Dazu werden Erwähnungen von Entitäten in Texten erkannt und klassifiziert. Mit diesem Modell können potenziell bessere Suchmaschinen und Wissensdatenbanken erstellt werden, indem nützliche Informationen aus großen Textmengen extrahiert werden.

In einer Welt, in der Menschen täglich mit einem unüberschaubaren Meer an Texten konfrontiert sind, stehen wir vor einem riesigen Problem: Wie können wir schnell und präzise die relevanten Informationen finden, die wir suchen? Dieses Problem beschäftigt auch die Forschungsgruppe„Information Profiling and Retrieval“ von der ZBW – Leibniz-Informationszentrum Wirtschaft unter Leitung des Informatikers Prof. Dr. Ralf Krestel.

In dem nun veröffentlichten Beitrag stellen Wissenschaftler der ZBW – Leibniz-Informationszentrum Wirtschaft und des Hasso-Plattner-Instituts (HPI) ihr DECENT-Modell vor. Dieses Modell identifiziert Erwähnungen von Entitäten in Texten, wie beispielsweise Personen, Orten oder Organisationen, und klassifiziert diese Entitäten in sehr feingranulare Klassen. Im Vergleich zu herkömmlichen Methoden, welche nur sehr grob zwischen Personen, Organisationen und Orten unterscheiden, können neuere Methoden viel feingranularer klassifizieren.

Damit erkennt das Modell beispielsweise nicht nur, dass Olaf Scholz eine Person ist, sondern auch, dass er ein Politiker ist – und nicht Sportler, Künstler oder Wissenschaftler. Diese feingranularen Modelle gehen teilweise noch weiter und unterscheiden beispielsweise in der Kategorie „Sportler:innen“ zwischen Tennisspielern, Basketballerinnen oder Leichtathlet:innen. Dadurch kann in einer Suchmaschine zum Beispiel konkret nach bestimmten Personengruppen gesucht werden.

Im Vergleich zu herkömmlichen Methoden bietet die ultrafeine Klassifizierung eine weit größere Vielfalt an potenziellen Klassen, die in die Zehntausende gehen können. Dies steigert natürlich den Aufwand für die Erkennung und Klassifizierung erheblich. An dieser Stelle setzt DECENT an: Das Modell verwendet maschinelles Lernen und lernt aus Daten, bei denen zuvor die vorkommenden Entitäten von Menschen manuell gekennzeichnet wurden. Dank einer geschickten Verarbeitung dieser Daten ist es deutlich effizienter als bestehende Modelle.

„Im Vergleich zu bisherigen Ansätzen ist DECENT unter gleichen Bedingungen bis zu 130-mal schneller beim Trainieren des Modells und Erkennen, ohne Einbußen bei der Klassifikationsgenauigkeit zu verzeichnen“, erklärt der leitende Wissenschaftler Prof. Dr. Ralf Krestel. „DECENT kann das Training durch eine clevere Kodierung der Eingabe und der Entitätsklassen beschleunigen und die Verallgemeinerung auf bisher ungesehene Klassen verbessern. Darüber hinaus eröffnet es die Möglichkeit, Entitätsklassen in spezialisierten Domänen und mit verschiedenen Definitionen zu behandeln, was in der Zukunft die Qualität von Ergebnissen in verschiedenen Anwendungsgebieten weiter verbessern könnte.“

Weitere Informationen

Das vollständige Forschungspapier „Efficient Ultrafine Typing of Named Entities“ von Alejandro Sierra-Múnera (HPI), Jan Westphal (HPI) und Ralf Krestel (ZBW) finden Sie unter folgender URL: DOI: 10.1109/JCDL57899.2023.00038. Es wurde auf der renommierten internationalen Joint Conference on Digital Libraries (JCDL) vorgestellt, die unter dem Motto stand: „Exploring new perspectives, challenges, and opportunities for libraries, archives, museums, and galleries“. Die JCDL beschäftigt sich mit verschiedenen Aspekten digitaler Bibliotheken, von der Infrastruktur bis zur digitalen Erhaltung.