AI Agent Hallucinations — The Business Risk Nobody Talks About

Ecco il testo tradotto in italiano:

Ecco la differenza tra un'allucinazione di un chatbot e un'allucinazione di un agente AI che conta per la tua attività: un chatbot ti dà una risposta sbagliata. Un agente AI agisce in base a una risposta sbagliata.

Le allucinazioni dell'AI sono output che suonano plausibili ma sono fattualmente errati. Output plausibili nel contesto ma logicamente incoerenti. Quando un agente ha un'allucinazione, non dice "non sono sicuro". Agisce in base a una premessa falsa. Invia un'email, aggiorna un record CRM, approva un rimborso, avvia un bonifico. L'allucinazione non è l'errore. L'azione basata sull'allucinazione lo è.

Questo blog tratta di come appaiono in pratica le allucinazioni degli agenti, perché sono categoricamente diverse da quelle dei chatbot, e quali difese riducono effettivamente il rischio.

La Tassonomia delle Allucinazioni

Non tutte le allucinazioni sono uguali. La ricerca distingue tra tre tipi con profili di rischio molto diversi.

Tipo 1: Output Sbagliati che Suonano Plausibili

L'agente fornisce informazioni errate con alta confidence. L'agente dice a un cliente che il suo ordine è stato spedito il 15 marzo quando in realtà è stato spedito il 22 marzo. L'agente cita con confidence una policy che non esiste. L'agente fornisce un nome di contatto che appartiene a un'altra azienda. Queste allucinazioni sono credibili perché suonano come il tipo di cosa che potrebbe essere vera.

Il pericolo è che l'utente di solito non ha modo di sapere che l'informazione è sbagliata finché qualcosa non va storto. A quel punto, l'agente ha già agito sulla base della premessa falsa.

Tipo 2: Plausibili nel Contesto ma Fattualmente Sbagliate

L'agente crea una nota di riunione che riassume una chiamata che non è mai avvenuta, con dettagli plausibili ma fabbricati. L'agente genera un riassunto di un documento legale che include disposizioni che sono state discusse ma non effettivamente concordate. L'agente produce una timeline di progetto che riflette ciò che avrebbe dovuto accadere piuttosto che ciò che è accaduto.

Queste sono più difficili da individuare perché sembrano ragionevoli nel contesto. Bisogna conoscere i fatti sottostanti per sapere che sono sbagliate.

Tipo 3: Allucinazioni di Ragionamento — Quella Critica per il Business

Questo è il tipo che rende le allucinazioni degli agenti una responsabilità aziendale piuttosto che un bug imbarazzante. Le allucinazioni di ragionamento: agenti che eseguono task digitali basandosi su premesse false. L'agente riceve un'email da quello che crede essere un cliente VIP che richiede un rimborso urgente. Ha un'allucinazione che la richiesta sia legittima. Avvia un bonifico da 50.000 dollari.

L'agente non si limita a dire qualcosa di sbagliato. Agisce in base a qualcosa di sbagliato. L'allucinazione non è nell'output. È nella catena di ragionamento che porta all'azione.

L'Attacco di Poisoned Reasoning — Quando le Allucinazioni Vengono Innescate Intenzionalmente

Esiste una categoria di allucinazione che non è casuale. È indotta.

L'attacco di Poisoned Reasoning funziona attraverso l'Indirect Prompt Injection. Un attacker embedda istruzioni malevole nei dati che l'agente elabora: email, documenti, pagine web, voci di calendario. L'agente legge i dati avvelenati, ha un'allucinazione che le istruzioni embeddate siano comandi legittimi, e agisce su quei comandi allucinati senza rendersi conto che non sono reali.

La sequenza dell'attacco: l'agente elabora email da mittenti sconosciuti. L'attacker invia un'email con istruzioni di prompt injection embeddate. L'agente legge l'email e incorpora le istruzioni nel suo contesto. Il comando allucinato si fonde perfettamente con le istruzioni legittime dell'agente. L'agente, credendo di aver ricevuto una direttiva interna legittima, invia dati dei clienti a un indirizzo esterno.

Le difese tradizionali non rilevano questo perché le istruzioni malevole sono embeddate nei dati, non nei prompt. Il filtering standard degli input non le coglie perché sembrano normale contenuto email. È la catena di ragionamento dell'agente stesso a produrre il comando allucinato.

Perché Risposte Sbagliate ma Confident Sono Peggiori di "Non Lo So"

C'è una pressione commerciale che rende le allucinazioni degli agenti peggiori di quanto dovrebbero essere. Gli utenti preferiscono risposte sbagliate ma confident a risposte corrette ma incerte. Le piattaforme di agent ottimizzano per la soddisfazione dell'utente, che premia la confidence. "Non lo so" riceve voti bassi dagli utenti anche quando è la risposta onesta.

Una risposta sbagliata ma confidente crea responsabilità. L'agente ha detto al cliente l'importo sbagliato del rimborso. Il cliente ha agito in base a quell'informazione. Adesso hai una controversia. Gli agenti che dicono "non lo so" richiedono percorsi di escalation umana.

Qualsiasi valutazione seria di un agente deve includere la domanda: cosa fa questo agente quando è incerto? I migliori agenti non si limitano ad agire. Sanno quando fare escalation.

Il Rischio di Allucinazione per Tipo di Azione

Le poste in gioco di un'allucinazione dipendono interamente da ciò che l'agente può fare. Ogni strumento aggiuntivo che un agente può chiamare è un raggio di blast aggiuntivo.

Agenti email inviano email basandosi su fatti allucinati riguardo al cliente, al prodotto o alla transazione. Rispondono a email di phishing che sono state iniettate con comandi di prompt. Il danno: impegni errati verso i clienti, risposta ad attacchi iniettati dall'attacker.

Agenti CRM aggiornano record con dati allucinati. Info di contatto sbagliate, fasi di deal inventate, note scorrette. Chiudono deal o segnano opportunità come vinte basandosi su esiti di conversazione allucinati. Il danno: record di dati corrotti che richiedono audit e correzione manuale.

Agenti finanziari elaborano pagamenti o rimborsi basandosi su autorizzazione allucinata. Approvano transazioni basandosi su limiti di credito o stato del conto allucinati. Il danno: perdita finanziaria, esposizione regolamentare, findings di audit.

Il pattern è chiaro. Più alte sono le poste in gioco dell'azione dell'agente, più pericolosa è l'allucinazione. Questo è il motivo per cui Agent Corps inizia con il triage delle email prima di espandere lo scope dell'agente. Dimostra che l'agente funziona a basse poste prima di dargli accesso a sistemi ad alte poste.

Costruire Difese — Cosa Riduce Effettivamente il Rischio di Allucinazione

Nessuna difesa elimina le allucinazioni interamente. L'obiettivo è ridurre il blast radius delle allucinazioni e catturare gli errori prima che si propaghino.

Graph-RAG per il recupero preciso dei dati — l'agente recupera solo fatti da un knowledge graph verificato, non dai pesi del modello. Solo i fatti che esistono nel graph possono essere recuperati. Questo previene statistiche fabbricate, informazioni di prodotto errate e dettagli di policy inventati.

Selezione semantica degli strumenti — l'agente verifica che lo strumento che vuole chiamare sia lo strumento giusto per il lavoro, non solo uno semanticamente simile. Previene di chiamare l'API sbagliata o inviare un messaggio al canale sbagliato.

Guardrail neurosimbolici — vincoli basati su regole che sovrascrivono l'output del modello quando le regole vengono violate. Vincoli rigidi che scattano indipendentemente da ciò che il modello vuole fare. Previene che gli agenti aggirino policy di rimborso, accesso non autorizzato ai dati e violazioni di compliance.

Validazione multi-agente — un secondo agente revisiona le azioni del primo agente prima che vengano eseguite. Cattura errori che il agente primario ha razionalizzato. Previene che gli agenti dichiarino successo quando le operazioni sono effettivamente fallite.

Cosa pretendere da una piattaforma agente prima di firmare: usa approcci retrieval-augmented per domande fattuali? Ci sono guardrail rigidi su azioni ad alte poste come pagamenti, cancellazione dati e comunicazioni esterne? C'è un human-in-the-loop per azioni reversibili ma impattanti? La piattaforma logga eventi adiacenti alle allucinazioni per analisi post-mortem?

Non valutare le piattaforme AI agent su ciò che possono fare. Valutale su ciò che succede quando hanno allucinazioni.

La Tassonomia delle Allucinazioni

L'Attacco di Poisoned Reasoning — Quando le Allucinazioni Vengono Innescate Intenzionalmente

Perché Risposte Sbagliate ma Confident Sono Peggiori di "Non Lo So"

Il Rischio di Allucinazione per Tipo di Azione

Costruire Difese — Cosa Riduce Effettivamente il Rischio di Allucinazione

Ready to let AI handle your busywork?