AI Agent Halluzinationen — Das Business-Risiko, über das niemand spricht
Hier ist der Unterschied zwischen einer Chatbot-Halluzination und einer AI-Agent-Halluzination, der für dein Business relevant ist: Ein Chatbot gibt dir eine falsche Antwort. Ein AI-Agent handelt auf Basis einer falschen Antwort.
AI-Halluzinationen sind plausibel klingende Outputs, die faktisch falsch sind. Kontextuell plausibel, aber logisch inkonsistent. Wenn ein Agent halluziniert, sagt er nicht „Ich bin mir nicht sicher." Er tut etwas basierend auf der falschen Prämisse. Er verschickt eine E-Mail, aktualisiert einen CRM-Eintrag, genehmigt eine Rückerstattung, initiiert eine Überweisung. Die Halluzination ist nicht der Fehler. Die Handlung basierend auf der Halluzination ist es.
Dieser Blog handelt davon, wie Agent-Halluzinationen in der Praxis aussehen, warum sie kategorisch anders sind als Chatbot-Halluzinationen, und welche Abwehrmaßnahmen das Risiko tatsächlich reduzieren.
Die Halluzinations-Taxonomie
Nicht alle Halluzinationen sind gleich. Die Forschung unterscheidet zwischen drei Typen mit sehr unterschiedlichen Risikoprofilen.
Typ 1: Plausibel klingende falsche Outputs
Der Agent liefert falsche Informationen mit hoher Confidence. Er teilt einem Kunden mit, dass seine Bestellung am 15. März versandt wurde, obwohl sie tatsächlich am 22. März versandt wurde. Er zitiert selbstbewusst eine Policy, die nicht existiert. Er liefert einen Kontaktnamen, der zu einer anderen Firma gehört. Diese Halluzinationen sind glaubwürdig, weil sie klingen wie etwas, das wahr sein könnte.
Die Gefahr liegt darin, dass der User normalerweise keine Möglichkeit hat zu wissen, dass die Information falsch ist – bis etwas schiefgeht. Dann aber hat der Agent bereits auf der falschen Prämisse gehandelt.
Typ 2: Kontextuell plausibel, aber faktisch falsch
Der Agent erstellt eine Meeting-Notiz, die ein Gespräch zusammenfasst, das nie stattfand – mit plausiblen, aber erfundenen Details. Der Agent generiert eine Zusammenfassung eines Rechtsdokuments, das Bestimmungen enthält, die diskutiert, aber nicht tatsächlich vereinbart wurden. Der Agent erstellt einen Projektzeitplan, der widerspiegelt, was hätte passieren sollen, anstatt was passiert ist.
Diese sind schwieriger zu erkennen, weil sie kontextuell vernünftig aussehen. Man muss die zugrundeliegenden Fakten kennen, um zu wissen, dass sie falsch sind.
Typ 3: Reasoning-Halluzinationen – Die geschäftskritische
Das ist der Typ, der Agent-Halluzinationen zu einer geschäftlichen Haftung macht, statt nur zu einem peinlichen Bug. Reasoning-Halluzinationen: Agents führen digitale Tasks basierend auf falschen Prämissen aus. Der Agent erhält eine E-Mail von dem, was er für einen VIP-Kunden hält, der eine dringende Rückerstattung anfordert. Er halluziniert, dass die Anfrage legitim ist. Er initiiert eine Überweisung von $50.000.
Der Agent sagt nicht nur etwas Falsches. Er handelt basierend auf etwas Falschem. Die Halluzination ist nicht im Output. Sie ist in der Reasoning-Kette, die zur Handlung führt.
Der Poisoned-Reasoning-Angriff – Wenn Halluzinationen absichtlich ausgelöst werden
Es gibt eine Kategorie von Halluzinationen, die nicht zufällig ist. Sie wird induziert.
Der Poisoned-Reasoning-Angriff funktioniert durch Indirect Prompt Injection. Ein Angreifer bettet bösartige Anweisungen in Daten ein, die der Agent verarbeitet: E-Mails, Dokumente, Webseiten, Kalendereinträge. Der Agent liest die vergifteten Daten, halluziniert, dass die eingebetteten Anweisungen legitime Commands sind, und handelt auf Basis dieser halluzinierten Commands, ohne zu erkennen, dass sie nicht real sind.
Der Angriffsablauf: Der Agent verarbeitet E-Mails von unbekannten Absendern. Der Angreifer sendet eine E-Mail mit eingebetteten Prompt-Injection-Anweisungen. Der Agent liest die E-Mail und integriert die Anweisungen in seinen Kontext. Der halluzinierte Command vermischt sich nahtlos mit legitimen Agent-Anweisungen. Der Agent, der glaubt, eine legitime interne Direktive erhalten zu haben, sendet Kundendaten an eine externe Adresse.
Traditionelle Abwehrmaßnahmen erkennen dies nicht, weil die bösartigen Anweisungen in Daten eingebettet sind, nicht in Prompts. Standard-Input-Filtering übersieht sie, weil sie wie normaler E-Mail-Inhalt aussehen. Die eigene Reasoning-Kette des Agents produziert den halluzinierten Command.
Warum selbstbewusste falsche Antworten schlimmer sind als „Ich weiß es nicht"
Es gibt einen kommerziellen Druck, der Agent-Halluzinationen schlimmer macht als nötig. User bevorzugen selbstbewusste falsche Antworten gegenüber unsicheren korrekten. Agent-Plattformen optimieren für User-Zufriedenheit, was Confidence belohnt. „Ich weiß es nicht" bekommt schlechte User-Ratings, selbst wenn es die ehrliche Antwort ist.
Eine selbstbewusste falsche Antwort erzeugt Haftung. Der Agent hat dem Kunden den falschen Rückerstattungsbetrag genannt. Der Kunde hat danach gehandelt. Jetzt hat man einen Disput. Agents, die „Ich weiß es nicht" sagen, erfordern manuelle Eskalationspfade.
Jede ernsthafte Agent-Evaluation muss die Frage beinhalten: Was macht dieser Agent, wenn er unsicher ist? Die besten Agents handeln nicht nur. Sie wissen, wann sie escalieren müssen.
Das Halluzinationsrisiko nach Action-Typ
Die Einsätze einer Halluzination hängen vollständig davon ab, was der Agent tun kann. Jedes zusätzliche Tool, das ein Agent aufrufen kann, ist ein zusätzlicher Halluzinations-Blast-Radius.
E-Mail-Agents versenden E-Mails basierend auf halluzinierten Fakten über den Kunden, das Produkt oder die Transaktion. Sie reagieren auf Phishing-E-Mails, die mit Prompt-Commands injiziert wurden. Der Schaden: falsche Zusagen an Kunden, Reaktion auf angreifer-initiierte Injection.
CRM-Agents aktualisieren Records mit halluzinierten Daten. Falsche Kontaktinfos, erfundene Deal-Stages, inkorrekte Notizen. Sie schließen Deals oder markieren Opportunities als gewonnen basierend auf halluzinierten Gesprächsergebnissen. Der Schaden: korrupte Daten-Records, die manuelle Auditierung und Korrektur erfordern.
Finanz-Agents verarbeiten Zahlungen oder Rückerstattungen basierend auf halluzinierter Autorisierung. Sie genehmigen Transaktionen basierend auf halluzinierten Kreditlimits oder Konto-Status. Der Schaden: finanzieller Verlust, regulatorische Exposition, Audit-Findings.
Das Muster ist klar. Je höher die Einsätze der Agent-Handlung, desto gefährlicher die Halluzination. Deshalb startet Agent Corps mit E-Mail-Triage, bevor der Agent-Scope erweitert wird. Beweise, dass der Agent bei niedrigen Einsätzen funktioniert, bevor du ihm Zugang zu Hochrisiko-Systemen gibst.
Abwehrmaßnahmen aufbauen – Was Halluzinationsrisiko tatsächlich reduziert
Keine Abwehr eliminiert Halluzinationen vollständig. Das Ziel ist es, den Halluzinations-Blast-Radius zu reduzieren und Fehler zu erkennen, bevor sie sich ausbreiten.
Graph-RAG für präzise Datenabfrage — der Agent ruft nur Fakten aus einem verifizierten Knowledge Graph ab, nicht aus den Modell-Gewichten. Nur Fakten, die im Graph existieren, können abgerufen werden. Das verhindert erfundene Statistiken, falsche Produktinformationen und erfundene Policy-Details.
Semantische Tool-Auswahl — der Agent verifiziert, dass das Tool, das er aufrufen will, das richtige Tool für den Job ist, nicht nur ein semantisch ähnliches. Verhindert das Aufrufen der falschen API oder das Senden einer Nachricht an den falschen Kanal.
Neurosymbolic Guardrails — regelbasierte Constraints, die Model-Output überschreiben, wenn Regeln verletzt werden. Harte Constraints, die feuern, egal was das Modell tun will. Verhindert, dass Agents Refund-Policies umgehen, unbefugten Datenzugriff und Compliance-Verletzungen.
Multi-Agent-Validierung — ein zweiter Agent überprüft die Handlungen des ersten Agents, bevor sie ausgeführt werden. Erkennt Fehler, die der primäre Agent wegrationalisiert hat. Verhindert, dass Agents Erfolg beanspruchen, wenn Operationen tatsächlich fehlgeschlagen sind.
Was man von einer Agent-Plattform vor der Unterzeichnung verlangen sollte: Nutzt sie Retrieval-Augmented-Ansätze für faktische Fragen? Gibt es harte Guardrails für Hochrisiko-Handlungen wie Zahlungen, Datenlöschung und externe Kommunikation? Gibt es einen Human-in-the-Loop für reversible, aber impactfule Handlungen? Loggt die Plattform halluzinations-adjazente Events für Post-Mortem-Analysen?
Evaluiere AI-Agent-Plattformen nicht darauf, was sie tun können. Evaluiere sie darauf, was passiert, wenn sie halluzinieren.