Warum Retrieval Augmented Generation relevant ist
Große Sprachmodelle wie GPT-4 oder Claude besitzen ein statisches Wissens-Cutoff-Datum: Alles, was nach dem Training geschah, ist ihnen unbekannt. Für Unternehmen, die KI-gestützte Systeme im B2B-Umfeld einsetzen, ist das ein kritisches Problem — Produktdaten, Preislisten, rechtliche Dokumente und Marktinformationen ändern sich kontinuierlich.
RAG löst dieses Problem, indem es das Sprachmodell mit einer dynamischen Wissensbasis koppelt. Statt das Modell neu zu trainieren, wird bei jeder Anfrage ein Retrieval-Schritt vorgeschaltet: Das System durchsucht eine Vektordatenbank oder einen Dokumentenindex, extrahiert relevante Passagen und übergibt diese als Kontext an das Sprachmodell. Im Kontext von Generative Engine Optimization (GEO) ist RAG besonders bedeutsam, weil Plattformen wie Perplexity, ChatGPT mit Websuche und Google AI Overviews genau dieses Prinzip nutzen, um Quellenangaben in ihren Antworten zu verankern.
Wie Retrieval Augmented Generation in der Praxis funktioniert
Ein typischer RAG-Workflow besteht aus drei Phasen:
- Indexierung: Dokumente (z. B. Produkthandbücher, FAQs, Whitepapers) werden in Vektoren umgewandelt und in einer Vektordatenbank gespeichert.
- Retrieval: Bei einer Nutzeranfrage wird eine semantische Suche durchgeführt. Die relevantesten Dokumentenabschnitte werden anhand ihrer Vektorähnlichkeit zur Anfrage ausgewählt.
- Generierung: Das Sprachmodell erhält die Nutzeranfrage zusammen mit den abgerufenen Passagen als Prompt und generiert eine Antwort, die auf diesen Quellen basiert.
Praxisbeispiel: Ein B2B-Softwareanbieter integriert RAG in seinen Kundensupport-Chatbot. Statt generischer Antworten durchsucht der Bot bei jeder Anfrage die aktuelle Dokumentationsbasis und liefert präzise, versionsspezifische Antworten — inklusive Quellenangabe auf den jeweiligen Dokumentationsabschnitt.
Was Retrieval Augmented Generation nicht ist
RAG ist kein Fine-Tuning. Beim Fine-Tuning wird das Modell selbst mit neuen Daten nachtrainiert, was rechenintensiv und kostspielig ist. RAG verändert die Modellgewichte nicht — es erweitert lediglich den Kontext zur Laufzeit.
RAG ist auch kein klassisches Suchsystem. Eine Suchmaschine liefert Dokumentenlinks; RAG synthetisiert aus den gefundenen Inhalten eine kohärente, natürlichsprachliche Antwort.
Verwandte, aber abzugrenzende Begriffe:
- Fine-Tuning: Anpassung der Modellgewichte auf spezifische Daten — dauerhaft, aber statisch.
- Prompt Engineering: Optimierung der Eingabeanweisung ohne externe Datenbankanbindung.
- Vector Search: Die Retrieval-Komponente innerhalb von RAG, aber kein vollständiges RAG-System für sich allein.
- Agentic AI: KI-Systeme, die eigenständig Aktionen ausführen — RAG kann eine Komponente davon sein, ist aber nicht dasselbe.