Hallucinations des AI Agents — Le risque métier dont personne ne parle

Voici la différence entre une hallucination de chatbot et une hallucination d'agent IA qui compte pour votre entreprise : un chatbot vous donne une mauvaise réponse. Un agent IA agit sur une mauvaise réponse.

Les hallucinations IA sont des outputs qui semblent plausibles mais sont factuellement incorrects. Des outputs contextuellement plausibles mais logiquement incohérents. Quand un agent a une hallucination, il ne dit pas « Je ne suis pas sûr. » Il fait quelque chose basé sur la fausse prémisse. Il envoie un email, met à jour un enregistrement CRM, approuve un remboursement, initie un virement bancaire. L'hallucination n'est pas l'erreur. L'action basée sur l'hallucination l'est.

Ce blog porte sur ce à quoi ressemblent les hallucinations d'agents en pratique, pourquoi elles sont catégoriquement différentes des hallucinations de chatbots, et quelles défenses réduisent réellement le risque.

La taxonomie des hallucinations

Toutes les hallucinations ne se ressemblent pas. La recherche distingue trois types aux profils de risque très différents.

Type 1 : Outputs incorrects qui semblent plausibles

L'agent transmet des informations erronées avec une grande confiance. Il indique à un client que sa commande a été expédiée le 15 mars alors qu'elle l'a été le 22. Il cite avec assurance une politique qui n'existe pas. Il fournit un nom de contact appartenant à une autre entreprise. Ces hallucinations sont crédibles parce qu'elles ressemblent au genre de chose qui pourrait être vraie.

Le danger est que l'utilisateur n'a généralement aucun moyen de savoir que l'information est fausse avant que quelque chose ne se passe mal. D'ici là, l'agent a déjà agi sur la fausse prémisse.

Type 2 : Contextuellement plausibles mais factuellement incorrectes

L'agent crée une note de réunion récapitulant un appel qui n'a jamais eu lieu, avec des détails plausibles mais fabriqués. L'agent génère un résumé d'un document juridique incluant des dispositions qui ont été discutées mais pas réellement convenues. L'agent produit un calendrier de projet reflétant ce qui aurait dû arriver plutôt que ce qui s'est passé.

Celles-ci sont plus difficiles à détecter parce qu'elles semblent raisonnables en contexte. Il faut connaître les faits sous-jacents pour savoir qu'elles sont erronées.

Type 3 : Hallucinations de raisonnement — Le cas critique pour l'entreprise

C'est le type qui fait des hallucinations d'agents une responsabilité métier plutôt qu'un bug embarrassant. Les hallucinations de raisonnement : des agents exécutant des tâches numériques basées sur de fausses prémisses. L'agent reçoit un email de ce qu'il croit être un client VIP demandant un remboursement urgent. Il a l'hallucination que la demande est légitime. Il initie un virement de 50 000 $.

L'agent ne dit pas simplement quelque chose de faux. Il agit sur quelque chose de faux. L'hallucination n'est pas dans l'output. Elle est dans la chaîne de raisonnement qui mène à l'action.

L'attaque par empoisonnement du raisonnement — Quand les hallucinations sont provoquées délibérément

Il existe une catégorie d'hallucinations qui n'est pas aléatoire. Elle est induite.

L'attaque par empoisonnement du raisonnement fonctionne par injection indirecte de prompt. Un attaquant intègre des instructions malveillantes dans les données que l'agent traite : emails, documents, pages web, entrées de calendrier. L'agent lit les données empoisonnées, a l'hallucination que les instructions intégrées sont des commandes légitimes, et agit sur ces commandes hallucinées sans réaliser qu'elles ne sont pas réelles.

La séquence d'attaque : l'agent traite des emails d'expéditeurs inconnus. L'attaquant envoie un email avec des instructions d'injection de prompt intégrées. L'agent lit l'email et intègre les instructions dans son contexte. La commande hallucinée se mélange parfaitement aux instructions légitimes de l'agent. L'agent, croyant avoir reçu une directive interne légitime, envoie les données client à une adresse externe.

Les défenses traditionnelles ne détectent pas cela parce que les instructions malveillantes sont intégrées dans les données, pas dans les prompts. Le filtrage d'entrée standard les manque parce qu'elles ressemblent à du contenu email normal. La propre chaîne de raisonnement de l'agent produit la commande hallucinée.

Pourquoi des mauvaises réponses confiantes sont pires que « Je ne sais pas »

Il existe une pression commerciale qui aggrave les hallucinations d'agents au-delà de ce qui serait nécessaire. Les utilisateurs préfèrent des mauvaises réponses confiantes aux bonnes réponses incertaines. Les plateformes d'agents optimisent pour la satisfaction utilisateur, ce qui récompense la confiance. « Je ne sais pas » reçoit des évaluations basses même quand c'est la réponse honnête.

Une mauvaise réponse confiante crée de la responsabilité. L'agent a dit au client le mauvais montant de remboursement. Le client a agi dessus. Maintenant, vous avez un litige. Les agents qui disent « Je ne sais pas » nécessitent des chemins d'escalade humaine.

Toute évaluation sérieuse d'agent doit inclure la question : qu'est-ce que cet agent fait quand il est incertain ? Les meilleurs agents ne se contentent pas d'agir. Ils savent quand escalader.

Le risque d'hallucination selon le type d'action

Les enjeux d'une hallucination dépendent entièrement de ce que l'agent peut faire. Chaque outil supplémentaire qu'un agent peut appeler est un rayon d'action supplémentaire pour l'hallucination.

Les agents email envoient des emails basés sur des faits hallucinés concernant le client, le produit ou la transaction. Ils répondent à des emails de phishing qui ont été injectés avec des commandes de prompt. Les dommages : engagements incorrects envers les clients, réponse à des injections initiées par l'attaquant.

Les agents CRM mettent à jour les enregistrements avec des données hallucinée. Coordonnées erronées, étapes de deal fictives, notes incorrectes. Ils closent des deals ou marquent des opportunités comme gagnées basées sur des résultats de conversation hallucinés. Les dommages : enregistrements de données corrompus nécessitant un audit et une correction manuels.

Les agents financiers traitent des paiements ou remboursements basés sur une autorisation hallucinée. Ils approuvent des transactions basées sur des limites de crédit ou des statuts de compte halluciné. Les dommages : pertes financières, exposition réglementaire, conclusions d'audit.

Le modèle est clair. Plus les enjeux de l'action de l'agent sont élevés, plus l'hallucination est dangereuse. C'est pourquoi Agent Corps commence par le tri des emails avant d'étendre la portée de l'agent. Prouvez que l'agent fonctionne à faible enjeu avant de lui donner accès à des systèmes à fort enjeu.

Construire des défenses — Ce qui réduit réellement le risque d'hallucination

Aucune défense n'élimine complètement les hallucinations. L'objectif est de réduire le rayon d'action de l'hallucination et de détecter les erreurs avant qu'elles ne se propagent.

Graph-RAG pour la récupération précise de données — l'agent ne récupère que des faits depuis un graphe de connaissances vérifié, pas depuis les poids du modèle. Seuls les faits qui existent dans le graphe peuvent être récupérés. Cela prévient les statistiques inventées, les mauvaises informations produit et les détails de politique inventés.

Sélection d'outils sémantique — l'agent vérifie que l'outil qu'il veut appeler est le bon outil pour la tâche, pas juste un outil sémantiquement similaire. Empêche d'appeler la mauvaise API ou d'envoyer un message sur le mauvais canal.

Gardes-fous neurosymboliques — contraintes basées sur des règles qui écrasent l'output du modèle quand les règles sont violées. Contraintes dures qui se déclenchent peu importe ce que le modèle veut faire. Empêche les agents de contourner les politiques de remboursement, l'accès non autorisé aux données et les violations de conformité.

Validation multi-agents — un deuxième agent passe en revue les actions du premier agent avant leur exécution. Détecte les erreurs que l'agent primaire a rationalisées. Empêche les agents de prétendre à la réussite quand les opérations ont échoué.

Ce qu'il faut exiger d'une plateforme d'agents avant de signer : Utilise-t-elle des approches de retrieval-augmented generation pour les questions factuelles ? Existe-t-il des gardes-fous stricts sur les actions à fort enjeu comme les paiements, la suppression de données et les communications externes ? Y a-t-il une boucle humaine pour les actions réversibles mais à fort impact ? La plateforme journalise-t-elle les événements adjacents aux hallucinations pour l'analyse post-mortem ?

N'évaluez pas les plateformes d'agents IA sur ce qu'elles peuvent faire. Évaluez-les sur ce qui se passe quand elles ont des hallucinations.

La taxonomie des hallucinations

L'attaque par empoisonnement du raisonnement — Quand les hallucinations sont provoquées délibérément

Pourquoi des mauvaises réponses confiantes sont pires que « Je ne sais pas »

Le risque d'hallucination selon le type d'action

Construire des défenses — Ce qui réduit réellement le risque d'hallucination

Ready to let AI handle your busywork?