RAGDefinition und Funktionsweise 2026
- RAG
- Retrieval-Augmented Generation — das Muster, ein LLM mit eigenen Daten zu erden, indem relevante Dokumente vor der Antwortgenerierung abgerufen werden.
RAG kombiniert zwei Komponenten: einen Retriever (üblicherweise eine Vektor-Datenbank), der die relevantesten Dokumente für eine Anfrage findet, und einen Generator (das LLM), der mit diesen Dokumenten im Kontext antwortet. Das Modell halluziniert weniger und kann Quellen zitieren.
RAG ist 2026 das dominante Muster für Enterprise-KI: interne Wissensdatenbanken, Dokumenten-Q&A, Code-Suche, Compliance-Recherche. Es löst das Halluzinations-Problem nicht, reduziert es aber drastisch und macht Outputs nachprüfbar.
Die häufigsten Stolpersteine: schlechte Embeddings (führen zu falschen Quellen), zu kleine Chunks (verlieren Kontext), zu große Chunks (verwässern Relevanz) und das Vergessen, dem Modell zu sagen, dass es nur basierend auf den abgerufenen Dokumenten antworten darf.
Wo das auftaucht
Häufig gefragt
Brauche ich RAG oder reicht ein langes Context-Fenster?+
Lange Kontextfenster (1 Mio.+ Tokens 2026) machen RAG für mittelgroße Wissensdatenbanken weniger essenziell, ersetzen es aber nicht. RAG bleibt nützlich für: Datenmengen über 1 Mio. Tokens, Quellen-Zitate (Audit-Trail), und wenn nur ein Teil der Daten pro Anfrage relevant ist (Kostenoptimierung).
Welche Vektor-Datenbank für RAG in 2026?+
Postgres mit pgvector ist die pragmatische Default-Wahl — Sie haben es wahrscheinlich schon, die Performance ist gut bis ~10 Mio. Vektoren. Pinecone, Weaviate und Qdrant sind die spezialisierten Optionen für größeren Maßstab.
Wie messe ich RAG-Qualität?+
Drei Metriken: Retrieval-Recall (sind die richtigen Dokumente in den Top-K?), Antwort-Treue (basiert die Antwort tatsächlich auf den abgerufenen Dokumenten?) und End-to-End-Korrektheit (löst die Antwort die Frage des Nutzers?). RAGAS und TruLens sind die gängigen Eval-Tools.
