AI Agent Hallucinations — Het zakelijke risico dat niemand bespreekt
Hier is het verschil tussen een chatbot-hallucinatie en een AI-agent-hallucinatie dat ertoe doet voor je bedrijf: een chatbot geeft je een fout antwoord. Een AI-agent handelt op basis van een fout antwoord.
AI-hallucinaties zijn plausibel klinkende output die feitelijk onjuist is. Contextueel plausibel maar logisch inconsistent. Wanneer een agent hallucineert, zegt hij niet "ik weet het niet." Hij doet iets op basis van de valse aanname. Hij stuurt een e-mail, werkt een CRM-record bij, keurt een terugbetaling goed, initieert een bankoverschrijving. De hallucinatie is niet de fout. De actie op basis van de hallucinatie is het.
Dit blog gaat over hoe agent-hallucinaties er in de praktijk uitzien, waarom ze categorisch anders zijn dan chatbot-hallucinaties, en welke verdedigingen het risico daadwerkelijk verminderen.
De Hallucinatie-Taxonomie
Niet alle hallucinaties zijn hetzelfde. Het onderzoek onderscheidt drie typen met heel verschillende risicoprofielen.
Type 1: Plausibel Klinkende Foute Output
De agent levert incorrecte informatie met hoge zekerheid. De agent vertelt een klant dat zijn bestelling op 15 maart is verzonden terwijl deze op 22 maart is verzonden. De agent noemt zelfverzekerd een beleid dat niet bestaat. De agent geeft een contactnaam die bij een ander bedrijf hoort. Deze hallucinaties zijn geloofwaardig omdat ze klinken als het soort ding dat waar zou kunnen zijn.
Het gevaar is dat de gebruiker meestal geen manier heeft om te weten dat de informatie fout is totdat er iets misgaat. Tegen die tijd heeft de agent al gehandeld op de valse aanname.
Type 2: Contextueel Plausibel maar Feitelijk Fout
De agent maakt een vergadernotitie die een gesprek samenvat dat nooit heeft plaatsgevonden, met plausibele maar verzonnen details. De agent genereert een samenvatting van een juridisch document dat bepalingen bevat die besproken maar niet daadwerkelijk overeengekomen zijn. De agent produceert een projecttijdlijn die weergeeft wat had moeten gebeuren in plaats van wat er is gebeurd.
Deze zijn moeilijker te ontdekken omdat ze redelijk ogen in de context. Je moet de onderliggende feiten kennen om te weten dat ze fout zijn.
Type 3: Redeneringshallucinaties — De Zakelijk Kritieke
Dit is het type dat agent-hallucinaties een zakelijke aansprakelijkheid maakt in plaats van een vervelende bug. Redeneringshallucinaties: agenten die digitale taken uitvoeren op basis van valse aannames. De agent ontvangt een e-mail van wat hij gelooft een VIP-klant te zijn die een dringende terugbetaling aanvraagt. Hij hallucineert dat het verzoek legitiem is. Hij initieert een bankoverschrijving van $50.000.
De agent zegt niet gewoon iets fout. Hij handelt op basis van iets fout. De hallucinatie zit niet in de output. Hij zit in de redeneerketen die tot de actie leidt.
De Poisoned Reasoning Attack — Wanneer Hallucinaties Opzettelijk Worden Getriggerd
Er is een categorie hallucinatie die niet willekeurig is. Het wordt geïnduceerd.
De Poisoned Reasoning attack werkt via Indirect Prompt Injection. Een aanvaller verwerkt kwaadaardige instructies in data die de agent verwerkt: e-mails, documenten, webpagina's, agenda-afspraken. De agent leest de vergiftigde data, hallucineert dat de ingebedde instructies legitieme commando's zijn, en handelt op basis van die gehallucineerde commando's zonder te beseffen dat ze niet echt zijn.
De aanvalsvolgorde: de agent verwerkt e-mails van onbekende afzenders. De aanvaller stuurt een e-mail met ingebedde prompt injection-instructies. De agent leest de e-mail en neemt de instructies op in zijn context. Het gehallucineerde commando versmelt naadloos met legitieme agent-instructies. De agent, die gelooft dat hij een legitieme interne richtlijn heeft ontvangen, stuurt klantgegevens naar een extern adres.
Traditionele verdedigingen vangen dit niet omdat de kwaadaardige instructies zijn ingebed in data, niet in prompts. Standaard input-filtering mist ze omdat ze eruitzien als normale e-mailcontent. De eigen redeneerketen van de agent produceert het gehallucineerde commando.
Waarom Zelfverzekerde Foute Antwoorden Erg Zijn Dan "Ik Weet Het Niet"
Er is een commerciële druk die agent-hallucinaties erger maakt dan nodig. Gebruikers geven de voorkeur aan zelfverzekerde foute antwoorden boven onzekere correcte. Agent platforms optimaliseren voor gebruikerstevredenheid, wat zelfverzekerdheid beloont. "Ik weet het niet" krijgt lage gebruikersbeoordelingen, zelfs wanneer het het eerlijke antwoord is.
Een zelfverzekerd fout antwoord creëert aansprakelijkheid. De agent vertelde de klant het verkeerde terugbetalingsbedrag. De klant handelde ernaar. Nu heb je een geschil. Agenten die zeggen "ik weet het niet" vereisen escalatiepaden naar mensen.
Elke serieuze agent-evaluatie moet de vraag omvatten: wat doet deze agent wanneer hij onzeker is? De beste agenten handelen niet alleen. Ze weten wanneer ze moeten escaleren.
Het Hallucinatie-Risico per Actietype
De inzet van een hallucinatie hangt volledig af van wat de agent kan doen. Elk extra gereedschap dat een agent kan aanroepen is een extra hallucinatie-blastradius.
E-mailagenten sturen e-mails op basis van gehallucineerde feiten over de klant, het product of de transactie. Ze reageren op phishing-e-mails die zijn geïnjecteerd met prompt-commando's. De schade: incorrecte toezeggingen aan klanten, respons op door aanvaller geïnitieerde injectie.
CRM-agenten werken records bij met gehallucineerde data. Verkeerde contactinfo, verzonnen deal-stadia, incorrecte notities. Ze sluiten deals of markeren opportunities als gewonnen op basis van gehallucineerde gespreksuitkomsten. De schade: gecorrumpeerde datarecords die handmatige audit en correctie vereisen.
Financiële agenten verwerken betalingen of terugbetalingen op basis van gehallucineerde autorisatie. Ze keuren transacties goed op basis van gehallucineerde kredietlimieten of accountstatussen. De schade: financieel verlies, regelgevingsblootstelling, audittingsbevindingen.
Het patroon is helder. Hoe hoger de inzet van de agent-actie, hoe gevaarlijker de hallucinatie. Dit is waarom Agent Corps begint met e-mail-triagem voordat het agentbereik wordt uitgebreid. Bewijs dat de agent werkt bij lage inzet voordat je het toegang geeft tot systemen met hoge inzet.
Verdedigingen Bouwen — Wat Hallucinatie-Risico Daadwerkelijk Vermindert
Geen enkele verdediging elimineert hallucinaties volledig. Het doel is het verminderen van de hallucinatie-blastradius en het opvangen van fouten voordat ze zich verspreiden.
Graph-RAG voor precieze data retrieval — de agent haalt alleen feiten op uit een geverifieerde kennisgraaf, niet uit de modelgewichten. Alleen feiten die in de graaf bestaan kunnen worden opgehaald. Dit voorkomt verzonnen statistieken, verkeerde productinformatie en verzonnen beleidsdetails.
Semantische toolselectie — de agent verifieert dat het gereedschap dat hij wil aanroepen het juiste gereedschap voor de klus is, niet alleen een semantisch vergelijkbaar. Voorkomt het aanroepen van de verkeerde API of het sturen van een bericht naar het verkeerde kanaal.
Neurosymbolic guardrails — op regels gebaseerde beperkingen die modeloutput overschrijven wanneer regels worden geschonden. Harde beperkingen die afgaan ongeacht wat het model wil doen. Voorkomt dat agenten refundbeleid omzeilen, ongeautoriseerde data-toegang krijgen en compliance-overtredingen plegen.
Multi-agent-validatie — een tweede agent reviewt de acties van de eerste agent voordat ze worden uitgevoerd. Vangt fouten op die de primaire agent heeft gerationaliseerd. Voorkomt dat agenten succes claimen wanneer operaties daadwerkelijk zijn mislukt.
Wat te eisen van een agent-platform voordat je je aanmeldt: Gebruikt het retrieval-augmented benaderingen voor feitelijke vragen? Zijn er harde guardrails op high-stakes acties zoals betalingen, data-deletie en externe communicatie? Is er een mens-in-de-loop voor omkeerbare maar impactvolle acties? Logt het platform hallucinatie-adjacente evenementen voor post-mortem-analyse?
Evalueer AI-agent-platforms niet op wat ze kunnen doen. Evalueer ze op wat er gebeurt wanneer ze hallucineren.