AI Agent Hallucinaties — Het Zakelijke Risico Waar Niemand Het Over Heeft
Het verschil dat ertoe doet voor je bedrijf: een chatbot geeft je een fout antwoord. Een AI-agent handelt op een fout antwoord.
AI-hallucinaties zijn output die plausibel klinken maar feitelijk onjuist zijn. Output die in de context past maar logisch inconsistent is. Wanneer een agent hallucineert, zegt het niet "ik weet het niet." Het handelt op basis van de valse aanname. Het stuurt een e-mail, werkt een CRM-record bij, keert een refund goed, start een bankoverschrijving. De hallucinatie is niet de fout. De actie op basis van de hallucinatie is dat wel. En daarom zijn agent-hallucinaties een zakelijk risico waar het marketingmateriaal van de meeste AI-agentplatforms overheen kijkt.
De Hallucinatie-Taxonomie
Niet alle hallucinaties zijn gelijk. Het onderzoek onderscheidt drie types met heel verschillende risicoprofielen.
Type 1: Plausibel Klinkende Foute Output
De agent levert incorrecte informatie met hoge zekerheid. Output die zelfverzekerd en plausibel klinkt maar feitelijk onjuist is. De agent vertelt een klant dat zijn bestelling op 15 maart is verzonden terwijl dit in werkelijkheid 22 maart was. De agent haalt zelfverzekerd een beleid aan dat niet bestaat. De agent geeft een contactnaam die bij een ander bedrijf hoort.
Het gevaar is dat de gebruiker meestal geen mogelijkheid heeft om te weten dat de informatie fout is tot er iets misgaat. Tegen die tijd heeft de agent al gehandeld op basis van de valse aanname.
Type 2: Contextueel Plausibel maar Feitelijk Onjuist
Output die in de context past maar bekende feiten tegenspreekt. De agent maakt een vergadernotitie die een gesprek samenvat dat nooit heeft plaatsgevonden, met plausibele maar verzonnen details. De agent genereert een samenvatting van een juridisch document met bepalingen die besproken maar niet daadwerkelijk overeengekomen zijn. De agent produceert een projectplanning die weergeeft wat hätte moeten gebeuren in plaats van wat er daadwerkelijk gebeurde.
Deze zijn moeilijker te vangen omdat ze redelijk ogen in de context. Je moet de onderliggende feiten kennen om te weten dat ze fout zijn.
Type 3: Redeneerhallucinaties — De Zakelijk Kritieke
Dit is het type dat agent-hallucinaties een zakelijke aansprakelijkheid maakt in plaats van een vervelende bug. Agents die digitale taken uitvoeren op basis van valse aannames. De agent ontvangt een e-mail van wat hij denkt dat een VIP-klant is die om een spoedrestitutie vraagt. Hij hallucineert dat het verzoek legitiem is. Hij start een bankoverschrijving van €50.000.
De agent zegt niet alleen iets fout. Het handelt op iets fout. De hallucinatie zit niet in de output. Het zit in de redeneerketen die tot de actie leidt.
De Poisoned Reasoning-aanval — Wanneer Hallucinaties Doelbewust Worden Getriggerd
Er is een categorie hallucinatie die niet willekeurig is. Deze wordt geïnduceerd.
De Poisoned Reasoning-aanval werkt via Indirect Prompt Injection. Een aanvaller verwerkt malicious instructies in data die de agent verwerkt: e-mails, documenten, webpagina's, agenda-items. De agent leest de vergiftigde data, hallucineert dat de verwerkte instructies legitieme commando's zijn, en handelt op basis van die gehallucineerde commando's zonder te beseffen dat ze niet echt zijn.
De aanvalsreeks: de agent verwerkt e-mails van onbekende afzenders. De aanvaller stuurt een e-mail met ingebedde prompt injection-instructies. De agent leest de e-mail en verwerkt de instructies in zijn context. Het gehallucineerde commando gaat naadloos op in legitieme agent-instructies. De agent, in de overtuiging dat hij een legitieme intern richtlijn heeft ontvangen, stuurt klantgegevens naar een extern adres.
Traditionele verdedigingen vangen dit niet op omdat de malicious instructies in data zijn ingebed, niet in prompts. Standaard input filtering mist ze omdat ze eruitzien als normale e-mailcontent. De eigen redeneerketen van de agent produceert het gehallucineerde commando. Het voelt legitiem aan voor het model.
Waarom Zelfverzekerde Foute Antwoorden Ergern zijn dan "Ik Weet Het Niet"
Er is een commerciële druk die agent-hallucinaties erger maakt dan nodig is. Gebruikers geven de voorkeur aan zelfverzekerde foute antwoorden boven onzekere correcte. Agentplatforms optimaliseren voor gebruikerstevredenheid, wat zelfverzekerdheid beloont. "Ik weet het niet" krijgt lage gebruikersbeoordelingen zelfs wanneer het het eerlijke antwoord is.
Een zelfverzekerd fout antwoord creëert aansprakelijkheid. De agent vertelde de klant het verkeerde restitutiebedrag. De klant handelde ernaar. Nu heb je een geschil. Agents die "ik weet het niet" zeggen vereisen menselijke escalatiepaden. Meer operationele overhead. Platforms die onzekerheidsresponsen afdwingen verliezen klanten aan platforms die dat niet doen.
Elke serieuze agent-evaluatie moet de vraag bevatten: wat doet deze agent wanneer hij onzeker is? De beste agents handelen niet alleen. Ze weten wanneer ze moeten escaleren.
Het HallucinatieRisico per Actietype
De inzet van een hallucinatie hangt volledig af van wat de agent kan doen. Elk extra tool dat een agent kan aanroepen is een extra hallucinatie-blastradius.
E-mailagents sturen e-mails op basis van gehallucineerde feiten over de klant, het product of de transactie. Ze reageren op phishing-e-mails die zijn geïnjecteerd met prompt-commando's. De schade: incorrecte toezeggingen aan klanten, data verkeerd verwijderd of doorgestuurd, reactie op aanvaller-geïnitieerde injectie.
CRM-agents werken records bij met gehallucineerde data. Verkeerde contactgegevens, fictieve dealfasen, incorrecte notities. Ze sluiten deals of markeren opportunities als gewonnen op basis van gehallucineerde gespreksuitkomsten. De schade: corrupte data-records die handmatige audit en correctie vereisen, pipeline-cijfers die misleidende zakelijke beslissingen veroorzaken.
LinkedIn- en Twitter-agents sturen connectieverzoeken of berichten op basis van gehallucineerde context over de prospect. Ze verzinnen engagementcijfers of bedrijfsinformatie in outreach. De schade: reputatieschade door outreach op basis van valse aannames, incorrecte sociale berichten die publiekelijk gecorrigeerd moeten worden.
Financiële agents verwerken betalingen of restituties op basis van gehallucineerde autorisatie. Ze keuren transacties goed op basis van gehallucineerde kredietlimieten of accountstatus. De schade: financieel verlies, regelgevingsblootstelling, auditbevindingen.
Verdedigingen Bouwen — Wat HallucinatieRisico Werkelijk Vermindert
Geen enkele verdediging elimineert hallucinaties volledig. Het doel is het verminderen van de hallucinatie-blastradius en het opvangen van fouten voordat ze zich verspreiden.
Graph-RAG voor nauwkeurige data-oPHaling — de agent haalt alleen feiten op uit een geverifieerde knowledge graph, niet uit de gewichten van het model. Alleen feiten die in de graph bestaan kunnen worden opgehaald.
Semantische toolselectie — de agent verifieert dat de tool die hij wil aanroepen de juiste tool is voor de taak, niet alleen een semantisch vergelijkbare.
Neurosymbolic guardrails — regelgebaseerde beperkingen die modeloutput overschrijven wanneer regels worden geschonden. Harde beperkingen die afgaan ongeacht wat het model wil doen.
Multi-agent-validatie — een tweede agent beoordeelt de acties van de eerste agent voordat ze worden uitgevoerd. Vangt fouten op die de primaire agent heeft gerationaliseerd.
Wat je moet eisen van een agentplatform voordat je tekent: Gebruikt het retrieval-augmented benaderingen voor feitelijke vragen? Zijn er harde guardrails op high-stakes acties zoals betalingen, dataverwijdering en externe communicatie? Is er een human-in-the-loop voor omkeerbare maar impactvolle acties? Logt het platform hallucinatie-gerelateerde events voor post-mortemanalyse?
Evalueer AI-agentplatforms niet op wat ze kunnen doen. Evalueer ze op wat er gebeurt wanneer ze hallucineren.