Das Problem: LLMs haben eingefrorenes Wissen

LLMs haben ein grundlegendes Problem: Ihr Wissensstand ist eingefroren. Sie kennen alles bis zu ihrem Trainingsdatum – aber nichts, was danach passiert ist. Auch unternehmensinterne Dokumente, E-Mails oder aktuelle Daten sind ihnen unbekannt.

Zur Lösung haben sich zwei grundlegend verschiedene Ansätze etabliert: RAG (Retrieval-Augmented Generation) und Large Context (auch: Long Context).

Was ist RAG?

Bei RAG werden große Dokumente im Vorfeld in kleinere Textabschnitte (Chunks) aufgeteilt. Ein Embedding-Modell wandelt diese in Vektoren um, die in einer Vektordatenbank gespeichert werden.

Stellt ein Nutzer eine Frage, führt das System eine semantische Suche durch und injiziert nur die relevantesten Chunks ins Kontextfenster des LLMs. KI-Suchmaschinen nutzen genau diesen Prozess für das Grounding – oft kombiniert mit Query Fan-Out: Der Prompt wird in mehrere Teilfragen aufgespalten, für die jeweils Suchergebnisse abgerufen werden.

Was ist Large Context?

Bei Large Context überspringt man Datenbank und Vektoren komplett. Stattdessen werden die gesamten Dokumente direkt in das Kontextfenster des Modells kopiert. Das Modell nutzt seinen eigenen Attention Mechanism, um relevante Antworten im Text zu finden.

Moderne Modelle verfügen über Kontextfenster von über einer Million Token – das entspricht etwa 700.000 Wörtern, genug für mehrere Romane.

Warum Large Context attraktiv ist

✅ Kein komplexer Stack

Ein RAG-System benötigt Chunking-Strategien, Embedding-Modelle, Vektordatenbanken und Reranker. Bei Large Context entfällt dieser gesamte Stack.

✅ Kein Silent Failure

Bei RAG kann die semantische Suche scheitern, wenn sie den relevanten Textabschnitt nicht findet – das Modell sieht die Antwort dann nie. Bei Large Context sieht das Modell alles.

✅ Ganzheitliche Analyse

RAG ruft nur isolierte Schnipsel ab und kann keine Lücken zwischen Dokumenten erkennen. Large Context bekommt beide Dokumente vollständig und sieht das große Ganze.

Wofür eignet sich Large Context nicht?

❌ Hohe Kosten pro Anfrage

Ein 500-seitiges Handbuch (~250.000 Token) muss bei jeder einzelnen Nutzeranfrage komplett neu gelesen werden. Das kostet erheblich mehr Rechenleistung als RAG, das Dokumente nur einmal indiziert.

❌ Needle-in-Haystack-Problem

Nur weil Daten im Kontextfenster sind, heißt das nicht, dass das Modell sie gut nutzt. Ist eine Antwort in der Mitte eines 2.000-seitigen Dokuments versteckt, kann das Modell halluzinieren.

❌ Unternehmensmaßstab

Ein Kontextfenster von einer Million Token klingt nach viel – in Unternehmensnetzwerken, die in Terabytes gemessen werden, ist es ein Tropfen auf den heißen Stein.

❌ Websuche

Für die Websuche ist Large Context völlig ungeeignet. Selbst riesige Kontextfenster sind viel zu klein für die Datenmenge im Web. Eine Retrieval-Ebene ist zwingend notwendig.

Fazit: RAG bleibt unverzichtbar

Large Context und RAG sind keine Konkurrenten, sondern komplementäre Werkzeuge:

  • Large Context eignet sich für überschaubare Dokumentmengen, ganzheitliche Analyse und Szenarien ohne komplexen Infrastruktur-Stack.
  • RAG bleibt die einzige skalierbare Lösung für die Websuche, Enterprise-Daten und kosteneffiziente Systeme.
🎯
Relevanz für Grounding: Da KI-Suchmaschinen für das Web-Grounding zwingend auf RAG angewiesen sind, bleibt Off-Model-Optimierung – also die Optimierung deiner Inhalte für den RAG-Prozess – der entscheidende Hebel für KI-Sichtbarkeit.

Dieser Artikel ist eine Zusammenfassung und Einordnung des Originalartikels „LLMs: Brauchen wir Retrieval Augmented Generation (RAG) noch?" von Christian Kunz, veröffentlicht am 12. März 2026 auf SEO Südwest.