Wie verhindere ich, dass mein LLM-Chatbot Kunden falsche Informationen gibt?

Halluzinationen werden nicht durch ein besseres Modell auf null gedrückt, sondern durch System-Design: RAG mit Quellenzwang, Retrieval-Qualität messen, Output-Plausibilisierung, klare Antwort-Verweigerung bei Unsicherheit, Human-in-the-Loop für sensible Bereiche. Wer alle fünf Hebel zieht, kommt auf eine Fehlerrate von 0,5–2 % — was für viele Use-Cases akzeptabel ist.

LLM-Halluzinationen reduzieren — Patterns für produktive Chatbots 2026

Die ehrliche Kurzantwort

Ein gut gebautes LLM-System produziert in 95–99 % der Fälle korrekte Antworten — und in 1–5 % der Fälle gibt es Halluzinationen, Ungenauigkeiten oder Lücken. Diese Quote ist nicht Modell-Problem, sondern Architektur-Problem. Mit fünf Hebeln drückst du sie auf 0,5–2 %:

RAG mit Quellenzwang — Antwort darf nur auf retriveden Quellen basieren
Retrieval-Qualität messen und tunen — der häufigste Fehler liegt vor dem LLM
Output-Plausibilisierung — automatische Sanity-Checks vor Auslieferung
Antwort-Verweigerung bei Unsicherheit — “Ich weiß es nicht” ist eine bessere Antwort als eine erfundene
Human-in-the-Loop für sensible oder unklare Fälle

Ein neueres oder größeres Modell hilft an den Rändern, ist aber nicht der zentrale Hebel. Wer ohne RAG mit GPT-5.5 arbeitet, hat mehr Halluzinationen als wer mit RAG und Claude Sonnet 4.6 arbeitet.

Was Halluzinationen wirklich verursacht

LLMs werden auf “wahrscheinlichste nächste Token” trainiert, nicht auf “wahrste Antwort”. Sie generieren plausibel klingenden Text — auch wenn die Faktenbasis fehlt. Drei Hauptquellen:

Out-of-Distribution-Fragen. Das Modell wurde nicht auf deine firmenspezifischen Daten trainiert. Wenn jemand fragt “Wie viel Rabatt bekomme ich auf Produkt X?”, erfindet das Modell eine plausible Zahl, weil es keine andere Quelle hat.

Veraltete Trainingsdaten. Selbst Claude Opus 4.7 mit Trainings-Cutoff Januar 2026 weiß nicht, dass ihr im März 2026 die Preisstruktur geändert habt.

Kontext-Konflikt. Wenn retriveder Kontext widersprüchliche Informationen enthält, mischt das Modell sie und produziert eine neue, falsche Version.

Suggestive Fragestellung. “Stimmt es, dass eure Software X kann?” Das Modell tendiert dazu, höflich zuzustimmen — auch wenn X gar nicht stimmt.

Hebel 1: RAG mit Quellenzwang

Was es heißt. Bevor das LLM antwortet, retrievet eine Vector-DB die relevanten Dokument-Chunks. Das LLM bekommt im Prompt die explizite Anweisung: “Antworte nur auf Basis der unten zitierten Quellen. Wenn die Antwort nicht aus den Quellen ableitbar ist, sage: ‘Das kann ich aus den verfügbaren Informationen nicht beantworten.’”

Konkrete Prompt-Struktur:

[System-Prompt]
Du bist ein Kundensupport-Assistent für Firma X.
Antworte ausschließlich auf Basis der unten zitierten Quellen.
Wenn die Antwort nicht in den Quellen steht, antworte:
"Das kann ich aus den verfügbaren Informationen nicht beantworten — bitte 
melden Sie sich bei service@firmax.de."

[Quellen]
[Quelle 1: Produktdatenblatt Modell ABC, Abschnitt 3.2]
...

[Frage]
{nutzer_frage}

Wirkung. Halluzinationsrate sinkt typischerweise von 5–15 % auf 1–3 %.

Voraussetzung. Die Quellen müssen tatsächlich vorhanden, aktuell und korrekt sein. RAG mit veralteten Quellen ist immer noch Halluzination, nur mit Quellen-Stempel.

Hebel 2: Retrieval-Qualität messen und tunen

Das verdrängte Problem. Wenn der Retriever die falschen Chunks zieht, hilft das beste LLM nichts. Die Halluzination kommt dann nicht vom Modell, sondern aus falsch retrieveden Kontext.

Was du messen musst:

Recall@k: Bei wie vielen Test-Anfragen ist der korrekte Chunk unter den Top-k? Ziel: über 90 % bei k=10.
MRR (Mean Reciprocal Rank): Wie weit oben steht der korrekte Chunk im Schnitt? Ziel: 0,7+.

Was du tunen kannst:

Chunking-Strategie. 300–1.000 Tokens pro Chunk, mit 10–20 % Overlap. Größere Chunks erfassen mehr Kontext, kleinere geben präzisere Retrieval-Treffer.
Embedding-Modell. text-embedding-3-large von OpenAI ist 2026 der starke Closed-Source-Standard. bge-m3 oder nomic-embed-text sind die Open-Source-Alternativen.
Hybrid-Retrieval. Vektor-Suche kombinieren mit Volltext-Suche (BM25). Erkennt Eigennamen und Fachbegriffe besser.
Re-Ranking. Nach Retrieval mit k=20 die Top-20 durch ein Re-Ranker-Modell (Cohere rerank-3, BGE-Reranker) auf Top-5 zurechtschneiden. Bringt typisch +10–20 Prozentpunkte Genauigkeit.

Hebel 3: Output-Plausibilisierung

Vor Auslieferung der LLM-Antwort: automatische Checks, ob die Antwort mit den retrieveden Quellen konsistent ist.

Drei einfache Patterns:

Quellen-Zitate erzwingen. Antwort muss konkrete Zitate aus den Quellen enthalten. Wenn das LLM keine Zitate produziert oder Zitate, die im Quell-Text nicht vorkommen, wird die Antwort blockiert.

Faithfulness-Check. Ein zweites LLM (oder dasselbe in einem zweiten Call) prüft: “Folgt die Antwort logisch aus den Quellen?” Score 0–5. Bei unter 3 wird die Antwort als unsicher markiert.

Strukturelle Checks. Wenn das LLM Zahlen, Preise oder Daten nennt: prüfen, ob diese in den Quellen vorkommen. Regex- oder NER-basiert.

Kosten: 2–3× LLM-Calls pro Anfrage. Lohnt sich bei sensiblen Use-Cases (Preise, Verträge, medizinische Auskünfte).

Hebel 4: Antwort-Verweigerung bei Unsicherheit

Eine ehrliche “Ich weiß es nicht”-Antwort ist 100× besser als eine selbstbewusste Falsch-Antwort.

Pattern. Im System-Prompt explizit definieren, wann das Modell nicht antworten soll:

Wenn die Frage außerhalb des Themenbereichs liegt
Wenn die retriveden Quellen die Frage nicht eindeutig beantworten
Wenn die Frage rechtliche, medizinische oder finanzielle Beratung erfordert, die wir nicht geben dürfen
Wenn die Frage Persönliches über Mitarbeiter oder Kunden enthält

Fallback. Statt einer erfundenen Antwort: Weiterleitung an Mensch.

Hebel 5: Human-in-the-Loop

Für sensible Bereiche: Mensch prüft die LLM-Antwort, bevor sie raus geht.

Wann sinnvoll:

Schreiben an Bestandskunden mit Vertragsfragen
Erst-Antworten in Reklamations-Fällen
Antworten, die rechtliche oder finanzielle Inhalte berühren
Antworten in sensiblen Branchen (Medizin, Recht, Versicherung)

Wie umsetzen:

Antwort-Vorschlag in einem Mitarbeiter-UI, mit Quellen daneben
Mitarbeitende prüfen, editieren, schicken raus (Take-it-or-Leave-Logik)
Mitarbeiter-Eingriffe loggen als Feedback-Signal für späteres Tuning

Effizienzgewinn auch bei HITL. Selbst wenn Mensch jede Antwort prüft, spart der LLM-Vorschlag 60–80 % der Schreibzeit.

Was du sonst noch beachten solltest

Eval-Set ist Pflicht. Ohne 100–500 Test-Cases mit erwarteten Antworten weißt du nicht, ob deine Optimierungen wirklich helfen. Bei jeder Änderung laufen lassen und Regression-Rate prüfen.

Modell-Updates re-evaluieren. Wenn der Anbieter das Modell aktualisiert, ändert sich oft das Verhalten in subtiler Weise. Eval-Set immer mit-laufen lassen.

Logs analysieren. Welche Anfragen lieferten “Ich weiß es nicht”-Antworten? Das sind die Knowledge-Lücken in deiner RAG-Datenbasis. Schließe sie.

Disclaimer setzen. Klar im UI kommunizieren: “Dies ist ein KI-Assistent. Bei kritischen Fragen wenden Sie sich an unser Team.” Senkt Erwartung, erhöht Toleranz.

Was du heute nicht tun solltest

Keine Chatbots ohne RAG live schalten. Keine RAG-Pipelines ohne Eval-Set in Produktion bringen. Keine “Das wird das nächste Modell schon richten”-Strategie — Halluzinations-Probleme sind System-Probleme, kein Modell-Problem.

Pragmatischer Einstieg: 50 echte Kundenanfragen sammeln, RAG-Pipeline bauen, gegen Eval-Set messen. Wenn die Quote unter 5 % Fehlern liegt: live. Wenn nicht: erst die Retrieval-Qualität tunen, dann Output-Plausibilisierung, dann HITL für die letzten Prozent.

Halluzinationen — wie bekomme ich sie im Kundenkontakt klein?