KI-Agent-Halluzinationen — Das Geschäftsrisiko, über das niemand spricht

Der entscheidende Unterschied zwischen Chatbot- und KI-Agent-Halluzinationen: Ein Chatbot liefert eine falsche Antwort. Ein KI-Agent handelt nach einer falschen Antwort.

KI-Halluzinationen sind plausibel klingende Outputs, die faktisch falsch sind — kontextuell plausibel, aber logisch inkonsistent. Wenn ein Agent halluziniert, sagt er nicht „Ich bin mir nicht sicher." Er handelt auf Basis einer falschen Prämisse. Er verschickt eine E-Mail, aktualisiert einen CRM-Eintrag, genehmigt eine Rückerstattung, initiiert eine Überweisung. Die Halluzination ist nicht der Fehler. Die Handlung auf Basis der Halluzination ist es. Und genau deshalb sind Agent-Halluzinationen ein Business-Risiko, das die meisten KI-Agent-Plattform-Marketingberichte totschweigen.

Die Halluzinations-Taxonomie

Nicht alle Halluzinationen sind gleich. Die Forschung unterscheidet zwischen drei Typen mit sehr unterschiedlichen Risikoprofilen.

Typ 1: Plausibel klingende falsche Outputs

Der Agent liefert falsche Informationen mit hoher Zuversicht. Outputs, die selbstsicher und plausibel klingen, aber faktisch inkorrekt sind. Der Agent teilt einem Kunden mit, dass seine Bestellung am 15. März versandt wurde, obwohl sie tatsächlich am 22. März versandt wurde. Der Agent beruft sich selbstsicher auf eine Richtlinie, die nicht existiert. Der Agent liefert einen Ansprechpartner, der zu einem anderen Unternehmen gehört.

Die Gefahr: Der Nutzer hat meist keine Möglichkeit zu erkennen, dass die Information falsch ist — bis etwas schiefgeht. Bis dahin hat der Agent bereits auf der falschen Prämisse gehandelt.

Typ 2: Kontextuell plausibel, aber faktisch falsch

Outputs, die in den Kontext passen, aber bekannten Fakten widersprechen. Der Agent erstellt ein Meeting-Protokoll, das ein Gespräch zusammenfasst, das nie stattfand, mit plausiblen, aber erfundenen Details. Der Agent erstellt eine Zusammenfassung eines Rechtsdokuments, das Bestimmungen enthält, die besprochen, aber nicht tatsächlich vereinbart wurden. Der Agent erstellt einen Projektzeitplan, der widerspiegelt, was hätte passieren sollen, anstatt was tatsächlich passiert ist.

Diese sind schwerer zu erkennen, weil sie im Kontext vernünftig aussehen. Man muss die zugrunde liegenden Fakten kennen, um zu wissen, dass sie falsch sind.

Typ 3: Reasoning-Halluzinationen — Der geschäftskritische Typ

Dies ist der Typ, der Agent-Halluzinationen zu einer geschäftlichen Haftung macht, anstatt nur ein peinlicher Bug zu sein. Agenten, die digitale Aufgaben auf Basis falscher Prämissen ausführen. Der Agent erhält eine E-Mail von dem, was er für einen VIP-Kunden hält, der eine dringende Rückerstattung anfordert. Er halluziniert, dass die Anfrage legitim ist. Er initiiert eine Überweisung von 50.000 Dollar.

Der Agent sagt nicht einfach etwas Falsches. Er handelt nach etwas Falschem. Die Halluzination liegt nicht im Output. Sie liegt in der Reasoning-Kette, die zur Handlung führt.

Der Poisoned-Reasoning-Angriff — Wenn Halluzinationen absichtlich ausgelöst werden

Es gibt eine Kategorie von Halluzinationen, die nicht zufällig ist. Sie wird induziert.

Der Poisoned-Reasoning-Angriff funktioniert über Indirect Prompt Injection. Ein Angreifer baut bösartige Anweisungen in Daten ein, die der Agent verarbeitet: E-Mails, Dokumente, Webseiten, Kalendereinträge. Der Agent liest die vergifteten Daten, halluziniert, dass die eingebetteten Anweisungen legitime Befehle sind, und handelt nach diesen halluzinierten Befehlen, ohne zu erkennen, dass sie nicht echt sind.

Der Angriffsablauf: Der Agent verarbeitet E-Mails von unbekannten Absendern. Der Angreifer sendet eine E-Mail mit eingebetteten Prompt-Injection-Anweisungen. Der Agent liest die E-Mail und integriert die Anweisungen in seinen Kontext. Der halluzinierte Befehl verschmilzt nahtlos mit legitimen Agent-Anweisungen. Der Agent, der glaubt, eine legitime interne Direktive erhalten zu haben, sendet Kundendaten an eine externe Adresse.

Traditionelle Abwehrmaßnahmen erkennen dies nicht, weil die bösartigen Anweisungen in Daten eingebettet sind, nicht in Prompts. Standard-Filterung erkennt sie nicht, weil sie wie normaler E-Mail-Inhalt aussehen. Die eigene Reasoning-Kette des Agenten erzeugt den halluzinierten Befehl. Es fühlt sich für das Modell legitim an.

Warum selbstsichere falsche Antworten schlimmer sind als „Ich weiß es nicht"

Es gibt einen kommerziellen Druck, der Agent-Halluzinationen schlimmer macht als nötig. Nutzer bevorzugen selbstsichere falsche Antworten gegenüber unsicheren richtigen. Agent-Plattformen optimieren auf Nutzerzufriedenheit, was Selbstsicherheit belohnt. „Ich weiß es nicht" bekommt schlechte Nutzerbewertungen, selbst wenn es die ehrliche Antwort ist.

Eine selbstsichere falsche Antwort schafft Haftung. Der Agent teilte dem Kunden den falschen Rückerstattungsbetrag mit. Der Kunde handelte danach. Jetzt hat man einen Streitfall. Agenten, die „Ich weiß es nicht" sagen, erfordern menschliche Eskalationspfade. Mehr operativer Overhead. Plattformen, die Unsicherheitsantworten erzwingen, verlieren Kunden an Plattformen, die es nicht tun.

Jede ernsthafte Agent-Evaluation muss die Frage beinhalten: Was tut dieser Agent, wenn er unsicher ist? Die besten Agenten handeln nicht nur. Sie wissen, wann sie eskalieren müssen.

Das Halluzinationsrisiko nach Action-Typ

Die Konsequenzen einer Halluzination hängen vollständig davon ab, was der Agent tun kann. Jedes zusätzliche Tool, das ein Agent aufrufen kann, ist ein zusätzlicher Halluzinations-Blastradius.

E-Mail-Agenten versenden E-Mails auf Basis halluzinierter Fakten über den Kunden, das Produkt oder die Transaktion. Sie reagieren auf Phishing-E-Mails, die mit Prompt-Befehlen injiziert wurden. Der Schaden: Falsche Zusagen an Kunden, Daten gelöscht oder falsch weitergeleitet, Reaktion auf angreifer-initiierten Injection.

CRM-Agenten aktualisieren Datensätze mit halluzinierten Daten. Falsche Kontaktdaten, fingierte Deal-Stages, fehlerhafte Notizen. Sie schließen Deals oder markieren Opportunities als gewonnen auf Basis halluzinierter Gesprächsergebnisse. Der Schaden: Korrumpierte Datensätze, die manuelle Prüfung und Korrektur erfordern, Pipeline-Zahlen, die Geschäftsentscheidungen in die Irre führen.

LinkedIn- und Twitter-Agenten versenden Verbindungsanfragen oder Nachrichten auf Basis halluzinierten Kontexts über den Prospect. Sie erfinden Engagement-Metriken oder Unternehmensinformationen in Outreach. Der Schaden: Reputationsschaden durch Outreach auf Basis falscher Prämissen, falsche Social-Media-Posts, die öffentlich korrigiert werden müssen.

Finanz-Agenten verarbeiten Zahlungen oder Rückerstattungen auf Basis halluzinierter Autorisierung. Sie genehmigen Transaktionen auf Basis halluzinierter Kreditlimits oder Konto-Status. Der Schaden: Finanzverlust, regulatorisches Risiko, Audit-Befunde.

Defenses aufbauen — Was Halluzinationsrisiko tatsächlich reduziert

Keine Abwehr eliminiert Halluzinationen vollständig. Das Ziel ist, den Halluzinations-Blastradius zu reduzieren und Fehler zu erwischen, bevor sie sich ausbreiten.

Graph-RAG für präzise Datenabfrage — der Agent ruft nur Fakten aus einem verifizierten Knowledge Graph ab, nicht aus den Modellgewichten. Nur Fakten, die im Graph existieren, können abgerufen werden.

Semantische Tool-Auswahl — der Agent verifiziert, dass das Tool, das er aufrufen will, das richtige Tool für den Job ist, nicht nur ein semantisch ähnliches.

Neurosymbolische Guardrails — regelbasierte Constraints, die Model-Output überschreiben, wenn Regeln verletzt werden. Harte Constraints, die feuern, unabhängig davon, was das Modell tun will.

Multi-Agent-Validation — ein zweiter Agent überprüft die Aktionen des ersten Agenten, bevor sie ausgeführt werden. Erkennt Fehler, die der primäre Agent weg rationalisiert hat.

Was man von einer Agent-Plattform verlangen sollte, bevor man sich anmeldet: Verwendet sie Retrieval-Augmented-Ansätze für faktische Fragen? Gibt es harte Guardrails für hochriskante Aktionen wie Zahlungen, Datenlöschung und externe Kommunikation? Gibt es einen Human-in-the-Loop für reversible, aber impactful Aktionen? Loggt die Plattform halluzinationsadjazente Events für Post-Mortem-Analyse?

Bewertet KI-Agent-Plattformen nicht danach, was sie tun können. Bewertet sie danach, was passiert, wenn sie halluzinieren.

Die Halluzinations-Taxonomie

Der Poisoned-Reasoning-Angriff — Wenn Halluzinationen absichtlich ausgelöst werden

Warum selbstsichere falsche Antworten schlimmer sind als „Ich weiß es nicht"

Das Halluzinationsrisiko nach Action-Typ

Defenses aufbauen — Was Halluzinationsrisiko tatsächlich reduziert

Ready to let AI handle your busywork?