Inzwischen haben wir alle gesehen, was dem Machine-Learning auf statistischer Basis fehlt: die Repräsentation von Wissen. Jeder von uns hat, absichtlich oder unabsichtlich, schon Large Language Models zum Halluzinieren gebracht – wobei der Begriff „Halluzinieren“ noch beschönigend ist, suggeriert er doch einen Ausnahmezustand, den man heilen kann. Wir sollten uns immer wieder vor Augen halten, dass LLMs im Kern Satzergänzungsmaschinen sind. Wenn die textuellen Äußerungen, die sie produzieren, sachlich korrekt sind, dann liegt das daran, dass sie in dem fraglichen Thema mit ausreichend korrektem Trainingsmaterial gefüttert wurden, nicht daran, dass sachliche Korrektheit im Kern der Verfahren irgendeine Rolle spielen würde.
Das hat dazu geführt, dass in den produktiven Setups dieser Verfahren ein guter Teil der Generative-AI-Revolution gerade wieder rückgängig gemacht wird. Verfahren wie Retrieval Augmented Generation (RAG) nehmen die eigentliche Beantwortung von Fragen, die eigentliche Lieferung von Information dem LLM wieder weg und setzen hier auf klassische Suchmechanismen.
Das Wissen, das dem LLM auf diesem Weg geliefert wird, kann potenziell aus beliebigen Quellen kommen: neben Knowledge Graphen auch aus Datenbanken oder sogar aus Dokumenten. Warum sind Knowledge Graphen besonders geeignet um dieses Wissen zu repräsentieren?
Knowledge Graphen sind besser als andere Formen strukturierter Daten geeignet komplexe fachliche Zusammenhänge zur repräsentieren und sie aus unterschiedlichen Richtungen, auf unterschiedlichen Abstraktionsebenen abfragen. Was sie mit dem repräsentierten Wissen anfangen können, ist näher an dem, was Menschen (und teilweise LLMs) damit machen können, nämlich Schlussfolgern, Generalisieren, Cluster und Ähnlichkeiten bilden. Nicht umsonst nutzen neue Forschungsansätze, die Fähigkeiten statischer Machine-Learning-Verfahren mit konzeptualisiertem Wissen und Multimodalität verknüpfen für die Repräsenation der Konzepte gerne Knowledge Graphen.
Gegenüber Dokumenten bietet der Graph mehr Präzision und mehr Kontrolle. Und er kommt billiger, weil viel weniger Tokens anfallen, die vom LLM verarbeitet werden müssen. Und schließlich können wie die Flexibilität des Knowledge Graphen nutzen um nicht nur die Fakten (z.B. Informationen zu den Produkten oder Leistungen des Unternehmens), sondern auch Ziele und Gesprächsführungsstrategien dort festzuhalten.
Soweit die Theorie, konkrete Erfahrungen und Ergebnisse finden Sie demnächst in einem weiteren Beitrag.