Las Alucinaciones de los Agentes de IA — El Riesgo Empresarial del Que Nadie Habla

Esta es la diferencia entre una alucinación de chatbot y una alucinación de agente de IA que marca la diferencia en tu negocio: un chatbot te da una respuesta incorrecta. Un agente de IA actúa en base a una respuesta incorrecta.

Las alucinaciones de IA son outputs que suenan plausibles pero son factualmente incorrectos. Outputs que son contextualmente plausibles pero lógicamente inconsistentes. Cuando un agente alucina, no dice "no estoy seguro". Hace algo basado en la premisa falsa. Envía un email, actualiza un registro en el CRM, aprueba un reembolso, inicia una transferencia bancaria. La alucinación no es el error. La acción basada en la alucinación sí lo es.

Este blog trata sobre cómo se ven las alucinaciones de agentes en la práctica, por qué son categoricamente diferentes a las alucinaciones de chatbots, y qué defensas realmente reducen el riesgo.

La Taxonomía de las Alucinaciones

No todas las alucinaciones son iguales. La investigación distingue entre tres tipos que tienen perfiles de riesgo muy diferentes.

Tipo 1: Outputs Incorrectos que Suenan Plausibles

El agente entrega información incorrecta con alta confianza. El agente le dice a un cliente que su pedido se envió el 15 de marzo cuando en realidad se envió el 22 de marzo. El agente cita con confianza una política que no existe. El agente proporciona un nombre de contacto que pertenece a otra empresa. Estas alucinaciones son creíbles porque suenan como el tipo de cosa que sería cierta.

El peligro es que el usuario normalmente no tiene forma de saber que la información es incorrecta hasta que algo sale mal. Para entonces, el agente ya ha actuado sobre la premisa falsa.

Tipo 2: Contextualmente Plausible pero Factualmente Incorrecto

El agente crea una nota de reunión resumiendo una llamada que nunca ocurrió, con detalles plausibles pero fabricados. El agente genera un resumen de un documento legal que incluye disposiciones que se discutieron pero no se firmaron realmente. El agente produce un cronograma de proyecto que refleja lo que debería haber pasado en lugar de lo que realmente pasó.

Estas son más difíciles de detectar porque se ven razonables en contexto. Tienes que conocer los hechos subyacentes para saber que están equivocadas.

Tipo 3: Alucinaciones de Razonamiento — La Críticamente Importante para el Negocio

Este es el tipo que convierte las alucinaciones de agentes en una responsabilidad empresarial en lugar de un bug vergonzoso. Las alucinaciones de razonamiento: agentes ejecutando tareas digitales basadas en premisas falsas. El agente recibe un email de lo que cree que es un cliente VIP solicitando un reembolso urgente. Alucina que la solicitud es legítima. Inicia una transferencia bancaria de $50,000.

El agente no solo dice algo incorrecto. Actúa sobre algo incorrecto. La alucinación no está en el output. Está en la cadena de razonamiento que lleva a la acción.

El Ataque de Razonamiento Envenenado — Cuando las Alucinaciones se Disparan a Propósito

Existe una categoría de alucinación que no es aleatoria. Es inducida.

El ataque de Razonamiento Envenenado funciona a través de Inyección de Prompt Indirecta. Un atacante incrusta instrucciones maliciosas en los datos que el agente procesa: emails, documentos, páginas web, entradas de calendario. El agente lee los datos envenenados, alucina que las instrucciones incrustadas son comandos legítimos, y actúa sobre esos comandos alucinados sin darse cuenta de que no son reales.

La secuencia del ataque: el agente procesa emails de remitentes desconocidos. El atacante envía un email con instrucciones de inyección de prompt incrustadas. El agente lee el email e incorpora las instrucciones en su contexto. El comando alucinado se mezcla perfectamente con las instrucciones legítimas del agente. El agente, creyendo que recibió una directiva interna legítima, envía datos de clientes a una dirección externa.

Las defensas tradicionales no detectan esto porque las instrucciones maliciosas están incrustadas en datos, no en prompts. El filtrado de input estándar las pasa por alto porque parecen contenido normal de email. La propia cadena de razonamiento del agente produce el comando alucinado.

Por Qué las Respuestas Incorrectas con Confianza Son Peores que "No Sé"

Existe una presión comercial que hace que las alucinaciones de agentes sean peores de lo necesario. Los usuarios prefieren respuestas incorrectas con confianza sobre respuestas correctas con incertidumbre. Las plataformas de agentes optimizan para satisfacción del usuario, lo que premia la confianza. "No lo sé" recibe bajas calificaciones de usuarios incluso cuando es la respuesta honesta.

Una respuesta incorrecta con confianza crea responsabilidad. El agente le dijo al cliente el monto de reembolso incorrecto. El cliente actuó en base a eso. Ahora tienes una disputa. Los agentes que dicen "no lo sé" requieren rutas de escalamiento humano.

Cualquier evaluación seria de agentes debe incluir la pregunta: ¿qué hace este agente cuando tiene incertidumbre? Los mejores agentes no solo actúan. Saben cuándo escalar.

El Riesgo de Alucinación por Tipo de Acción

Las apuestas de una alucinación dependen enteramente de lo que el agente puede hacer. Cada herramienta adicional que un agente puede invocar es un radio de explosión adicional de alucinación.

Agentes de email envían emails basados en hechos alucinados sobre el cliente, el producto o la transacción. Responden a emails de phishing que han sido inyectados con comandos de prompt. El daño: compromisos incorrectos hacia clientes, respuesta a inyección iniciada por atacantes.

Agentes de CRM actualizan registros con datos alucinados. Información de contacto incorrecta, etapas de trato falsas, notas incorrectas. Cierran tratos o marcan oportunidades como ganadas basándose en resultados de conversación alucinados. El daño: registros de datos corruptos que requieren auditoría y corrección manual.

Agentes financieros procesan pagos o reembolsos basados en autorización alucinadas. Aprueban transacciones basándose en límites de crédito o estado de cuenta alucinados. El daño: pérdida financiera, exposición regulatoria, hallazgos de auditoría.

El patrón es claro. Cuanto más altas las apuestas de la acción del agente, más peligrosa la alucinación. Por eso Agent Corps comienza con triaje de emails antes de expandir el alcance del agente. Demuestra que el agente funciona en situaciones de bajo riesgo antes de darle acceso a sistemas de alto riesgo.

Construyendo Defensas — Lo Que Realmente Reduce el Riesgo de Alucinación

Ninguna defensa elimina las alucinaciones por completo. El objetivo es reducir el radio de explosión de las alucinaciones y detectar errores antes de que se propaguen.

Graph-RAG para recuperación precisa de datos — el agente solo recupera hechos de un knowledge graph verificado, no de los pesos del modelo. Solo los hechos que existen en el grafo pueden ser recuperados. Esto previene estadísticas fabricadas, información incorrecta de productos y detalles de políticas inventados.

Selección semántica de herramientas — el agente verifica que la herramienta que quiere invocar es la correcta para el trabajo, no solo una semánticamente similar. Previene invocar la API equivocada o enviar un mensaje por el canal equivocado.

Guardrails neurosimbólicos — restricciones basadas en reglas que sobrescriben el output del modelo cuando se violan las reglas. Restricciones duras que se disparan sin importar lo que el modelo quiera hacer. Previene que los agentes evadan políticas de reembolso, acceso no autorizado a datos y violaciones de cumplimiento.

Validación multi-agente — un segundo agente revisa las acciones del primer agente antes de que se ejecuten. Detecta errores que el agente primario racionalizó. Previene que los agentes reclamen éxito cuando las operaciones realmente fallaron.

Qué exigir a una plataforma de agentes antes de firmar: ¿Usa enfoques de retrieval-augmented para preguntas factuales? ¿Hay guardrails duros en acciones de alto riesgo como pagos, eliminación de datos y comunicaciones externas? ¿Hay un humano en el loop para acciones reversibles pero impactantes? ¿La plataforma registra eventos adyacentes a alucinaciones para análisis post-mortem?

No evalúes plataformas de agentes de IA por lo que pueden hacer. Evalúalas por lo que pasa cuando alucinan.

La Taxonomía de las Alucinaciones

El Ataque de Razonamiento Envenenado — Cuando las Alucinaciones se Disparan a Propósito

Por Qué las Respuestas Incorrectas con Confianza Son Peores que "No Sé"

El Riesgo de Alucinación por Tipo de Acción

Construyendo Defensas — Lo Que Realmente Reduce el Riesgo de Alucinación

Ready to let AI handle your busywork?