Verloren im Labyrinth der IT-Begriffe? Hier finden Sie Definitionen und Basiswissen zu Rechenzentrums-IT und -Infrastruktur.

Bessere Sprachmodelle Was ist Retrieval Augmented Generation?

Von Andreas Th. Fischer 3 min Lesedauer

Anbieter zum Thema

Retrieval Augmented Generation oder auch RAG bezieht aktuelle und zusätzliche Daten in eine LLM-Abfrage ein. Das macht es für Firmen interessant, die nicht nur bessere Antworten von ihrem Chatbot erwarten, sondern dabei auch noch Kosten sparen wollen.

Retrieval Augmented Generation, RAG, ermöglicht, Sprachmodelle zu präzisieren, indem sie mit geprüften, aktuellen Daten gefüttert werden. (Bild:  frei lizenziert: Gerd Altmann /  Pixabay)
Retrieval Augmented Generation, RAG, ermöglicht, Sprachmodelle zu präzisieren, indem sie mit geprüften, aktuellen Daten gefüttert werden.
(Bild: frei lizenziert: Gerd Altmann / Pixabay)

Mit dem Aufkommen von „ChatGPT“ sind große Sprachmodelle beziehungsweise Large Language Models (LLM) auch in den Fokus von IT-Experten gerückt, da dafür umfangreiche Server-Farmen in den Rechenzentren benötigt werden. Ein typisches LLM wird üblicherweise mit gigantischen Datenmengen und Milliarden Parametern trainiert.

Viele Unternehmen haben allerdings durchaus berechtigte Bedenken, ein solches großes Sprachmodell einzusetzen. Sie befürchten nicht nur Fehler, sondern auch dass dabei interne Geschäftsdaten in das LLM gelangen und später in die falschen Hände geraten könnten. Ein Gegenmittel ist die so genannte Retrieval Augmented Generation (RAG).

Relevantere und aktuellere Antworten

Die Retrieval Augmented Generation soll gleich mehrere Probleme der großen Sprachmodelle lösen. So neigen Chatbots bekanntermaßen zu teils schwerwiegenden Halluzinationen, weil sie nach bestimmten, vorgegebenen statistischen Regeln mehr oder weniger blind Wörter aneinander reihen, ohne wirklich zu verstehen, was dahinter steckt. Ein weiteres Problem ist, dass die verwendeten Informationen meist zu einem bestimmten Stichtag gesammelt wurden. Neuere Ereignisse und Daten werden daher nicht berücksichtigt.

Ungenaue Antworten haben vielleicht einen unterhaltsamen Wert, können in einem Unternehmensumfeld aber nicht genutzt werden. Amazon Web Services (AWS) vergleicht einen generativen Chatbot daher mit einem „übermäßig begeisterten neuen Mitarbeiter, der sich weigert, über aktuelle Ereignisse auf dem Laufenden zu bleiben, aber jede Frage immer mit absoluter Zuversicht beantwortet“.

Mit Retrieval Augmented Generation hingegen lassen sich zu deutlich geringeren Kosten aktuelle Daten flexibel zu einem LLM hinzufügen. Laut AWS ist es damit sogar möglich, Live-Meldungen von Nachrichtenseiten oder aus sozialen Netzwerken zu integrieren. So können die Chatbot-Nutzer sofort auf aktuelle Daten zugreifen.

RAG-Vorteile

Ein weiterer Vorteil ist, dass sich Dank Retrieval Augmented Generation auch die Quellen bestimmter Aussagen der KI angeben lassen. Die Anwender können dann direkt über Links auf die zugrundeliegenden Daten zugreifen. Solassen sich die Ergebnisse überprüfen, was im professionellen Umfeld unverzichtbar ist.

Darüber hinaus verschafft Retrieval Augmented Generation den Entwicklern eine größere Kontrolle über das LLM. So können sie die Datenquellen flexibel anpassen, um auf sich ändernde Anforderungen zu reagieren. Ein wichtiger Punkt ist zudem, dass sich damit vertrauliche Informationen nur nach einer zusätzlichen Autorisierung abrufen lassen.

Die RAG-Funktionsweise

Ein herkömmliches, großes Sprachmodell nimmt die Anfragen der Nutzer entgegen und erstellt auf Basis seiner Trainingsdaten passende Antworten. Bei Retrieval Augmented Generation werden die Anfragen zunächst verwendet, um weitere Informationen einzuholen. Anschließend werden sie sowie die zusätzlichen Daten zurück an das LLM Übergeben, das auf dieser Basis nun relevantere Antworten erzeugen kann.

RAG verbessert also ein herkömmliches großes Sprachmodell durch die Einbeziehung externer Daten in Echtzeit. Die Eingaben der Nutzer werden verwendet, um passende Daten aus verschiedenen Quellen einzuholen. Folgende Schritte werden dabei durchlaufen:

  • 1. Verarbeitung der Anfrage: Direkt nach Eingabe der Anfrage beginnt Retrieval Augmented Generation damit, sie zu analysieren. Dabei spielen die Absicht, der Kontext und spezifische Anforderungen eine erhebliche Rolle. Die Genauigkeit dieser ersten Analyse ist von entscheidender Bedeutung, da sie den weiteren Prozess bestimmt.
  • 2. Abrufen externer Daten: Sobald die Anfrage verstanden wurde, greift Retrieval Augmented Generation auf verfügbare externe Datenquellen wie Datenbanken, APIs oder Dokumentensammlungen zu. Diese Daten gehen über die ursprünglichen Trainingsdaten in der Regel weit hinaus.
  • 3. Vektorisierung der Daten: Die externen Daten werden zusammen mit der Anfrage des Benutzers in numerische Vektordarstellungen umgewandelt. Auf diese Weise lässt sich die Relevanz der externen Daten für die Abfrage mathematisch bestimmen.
  • 4. Erweiterung des ursprünglichen Prompt: In diesem Schritt wird der Prompt um die gewonnenen Daten erweitert. Dabei müssen Kontext und Intention der ursprünglichen Anfrage erhalten bleiben. Der erweiterte Prompt ermöglicht es dem Sprachmodell letztlich, Antworten zu erzeugen, die genauer, aktueller und relevanter sind.
  • 5. Fortlaufende Aktualisierungen der Daten: Die externen Datenquellen müssen laufend aktualisiert werden, damit das System effektiv und aktuell bleibt. Das kann abhängig von der Art der Daten und den Anforderungen der Anwendung entweder automatisiert oder in regelmäßigen Abständen durchgeführt werden.

Retrieval Augmented Generation sorgt also für aktuellere und fachlich bessere Antworten sowie für weniger Fehler und Halluzinationen. Außerdem spart es Kosten.

(ID:50080290)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu RZ- und Server-Technik

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung