Das Problem: LLMs haben eingefrorenes Wissen
LLMs haben ein grundlegendes Problem: Ihr Wissensstand ist eingefroren. Sie kennen alles bis zu ihrem Trainingsdatum – aber nichts, was danach passiert ist. Auch unternehmensinterne Dokumente, E-Mails oder aktuelle Daten sind ihnen unbekannt.
Zur Lösung haben sich zwei grundlegend verschiedene Ansätze etabliert: RAG (Retrieval-Augmented Generation) und Large Context (auch: Long Context).
Was ist RAG?
Bei RAG werden große Dokumente im Vorfeld in kleinere Textabschnitte (Chunks) aufgeteilt. Ein Embedding-Modell wandelt diese in Vektoren um, die in einer Vektordatenbank gespeichert werden.
Stellt ein Nutzer eine Frage, führt das System eine semantische Suche durch und injiziert nur die relevantesten Chunks ins Kontextfenster des LLMs. KI-Suchmaschinen nutzen genau diesen Prozess für das Grounding – oft kombiniert mit Query Fan-Out: Der Prompt wird in mehrere Teilfragen aufgespalten, für die jeweils Suchergebnisse abgerufen werden.
Was ist Large Context?
Bei Large Context überspringt man Datenbank und Vektoren komplett. Stattdessen werden die gesamten Dokumente direkt in das Kontextfenster des Modells kopiert. Das Modell nutzt seinen eigenen Attention Mechanism, um relevante Antworten im Text zu finden.
Moderne Modelle verfügen über Kontextfenster von über einer Million Token – das entspricht etwa 700.000 Wörtern, genug für mehrere Romane.
Warum Large Context attraktiv ist
✅ Kein komplexer Stack
Ein RAG-System benötigt Chunking-Strategien, Embedding-Modelle, Vektordatenbanken und Reranker. Bei Large Context entfällt dieser gesamte Stack.
✅ Kein Silent Failure
Bei RAG kann die semantische Suche scheitern, wenn sie den relevanten Textabschnitt nicht findet – das Modell sieht die Antwort dann nie. Bei Large Context sieht das Modell alles.
✅ Ganzheitliche Analyse
RAG ruft nur isolierte Schnipsel ab und kann keine Lücken zwischen Dokumenten erkennen. Large Context bekommt beide Dokumente vollständig und sieht das große Ganze.
Wofür eignet sich Large Context nicht?
❌ Hohe Kosten pro Anfrage
Ein 500-seitiges Handbuch (~250.000 Token) muss bei jeder einzelnen Nutzeranfrage komplett neu gelesen werden. Das kostet erheblich mehr Rechenleistung als RAG, das Dokumente nur einmal indiziert.
❌ Needle-in-Haystack-Problem
Nur weil Daten im Kontextfenster sind, heißt das nicht, dass das Modell sie gut nutzt. Ist eine Antwort in der Mitte eines 2.000-seitigen Dokuments versteckt, kann das Modell halluzinieren.
❌ Unternehmensmaßstab
Ein Kontextfenster von einer Million Token klingt nach viel – in Unternehmensnetzwerken, die in Terabytes gemessen werden, ist es ein Tropfen auf den heißen Stein.
❌ Websuche
Für die Websuche ist Large Context völlig ungeeignet. Selbst riesige Kontextfenster sind viel zu klein für die Datenmenge im Web. Eine Retrieval-Ebene ist zwingend notwendig.
Fazit: RAG bleibt unverzichtbar
Large Context und RAG sind keine Konkurrenten, sondern komplementäre Werkzeuge:
- Large Context eignet sich für überschaubare Dokumentmengen, ganzheitliche Analyse und Szenarien ohne komplexen Infrastruktur-Stack.
- RAG bleibt die einzige skalierbare Lösung für die Websuche, Enterprise-Daten und kosteneffiziente Systeme.
Dieser Artikel ist eine Zusammenfassung und Einordnung des Originalartikels „LLMs: Brauchen wir Retrieval Augmented Generation (RAG) noch?" von Christian Kunz, veröffentlicht am 12. März 2026 auf SEO Südwest.