El doble agente en tu oficina: cómo un atacante puede convertir a tu asistente de IA en un espía silencioso
Lo que todos deben saber sobre la «tríada letal» antes de desplegar agentes de IA
Carga estos 40 CVs con sus anexos y prepara una terna por vacante. Luego envía a los responsables de selección un resumen por puesto y, si faltan datos, solicítalos directamente al candidato.
En cualquier organización, esa instrucción suena a modernización pura: un agente de IA capaz de analizar información y operar sistemas de gestión y comunicación, representa menos horas de lectura, decisiones más ágiles y grandes incrementos en la productividad.
Pero esa misma eficiencia esconde una vulnerabilidad estructural. Los permisos que el agente de IA necesita para acceder a información y operar aplicaciones abren una vía de ataque: un adversario puede inducir al agente a abusar de esos privilegios para extraer datos, alterar registros o ejecutar acciones no autorizadas.
Cómo funciona el ataque
Imagine el siguiente escenario: uno de esos CVs llega como PDF, aparentemente impecable y bien formateado. Todo parece normal. Sin embargo, en algún rincón del archivo se oculta una instrucción invisible —por ejemplo, texto blanco sobre fondo blanco, texto diminuto, metadatos alterados o una capa transparente— que, aunque las personas no distingamos, el modelo sí procesa.
No es un virus convencional, es una instrucción disfrazada de contenido. El agente, incapaz de distinguir con claridad entre contenido legítimo y comandos maliciosos, la interpreta como parte de la tarea y la ejecuta. Es un ataque conocido como prompt injection.
El correo con las ternas sale puntualmente. Los responsables de selección reciben su resumen. A primera vista, todo funciona según lo previsto. Sin embargo, el agente no solo resumió CVs. Obedeciendo la instrucción oculta en el PDF, también redactó otro correo, dirigido a una dirección externa controlada por el atacante, y lo envió en segundo plano.
En ese mensaje viajan datos que el agente extrajo de los sistemas a los que tiene acceso: salarios de empleados, fragmentos de registros contables, listados internos, credenciales de acceso. El flujo visible funciona con normalidad pero el robo de información ocurre en segundo plano, sin alertas ni rastro aparente.
Para que este escenario fuera posible el agente necesitó acceso simultáneo a tres elementos:
La «tríada letal» explicada
El término fue acuñado por Simon Willison, ingeniero de software y referente en seguridad de IA, para describir el patrón de riesgo que surge cuando un agente de IA reúne tres capacidades en un mismo flujo de trabajo.
Exposición a contenido no confiable
Correos entrantes, archivos PDF, enlaces web, portales de candidatos o proveedores, mensajes de terceros e incluso invitaciones de calendario.
Cualquier dato proveniente del exterior puede contener texto oculto que el agente procesará como parte de su tarea, lo cual puede permitir a un atacante tomar el control.
Acceso a datos privados o sensibles
Repositorios documentales como SharePoint o Drive, sistemas de gestión (CRM, ERP, plataformas de talento), nóminas, expedientes, contratos, notas de entrevistas.
Los agentes de IA suelen requerir el acceso a estos sistemas para realizar su función. El riesgo está en que puedan exfiltrarlos.
Capacidad de salida o acción
Enviar correos o SMS, abrir enlaces web, subir archivos, crear tickets, invocar APIs externas o actualizar registros en sistemas corporativos.
La exfiltración puede ser extremadamente simple: basta con que el agente abra una URL controlada por el atacante y adjunte la información en un parámetro de la propia URL.
Cada capacidad, por separado, es manejable y necesaria para que estos sistemas sean útiles. El problema surge cuando las tres convergen: tu asistente de IA puede convertirse, sin que nadie lo advierta, en un doble agente al servicio de un atacante externo.
La pregunta, entonces, no es si los agentes de IA resultan útiles —que lo son—, sino cómo gobernarlos para que la productividad ganada no se convierta en el próximo incidente de seguridad.
Incidentes documentados
A lo largo de 2025, con la popularización de los agentes de IA, la tríada letal ha pasado de ser una preocupación teórica a convertirse en incidentes reales.
Un atacante envía un documento con apariencia legítima que contiene instrucciones ocultas en texto invisible o en metadatos. Cuando un empleado solicita a Copilot «resume esta presentación», el asistente procesa simultáneamente tanto el contenido legítimo como el malicioso.
Las instrucciones ocultas lo dirigen a extraer información sensible —correos electrónicos, documentos o conversaciones— y a enviarla de forma encubierta a un servidor externo, mediante una URL codificada en una imagen.
Lo crítico: No requiere que la víctima haga clic en nada. El ataque se desarrolla en el flujo de trabajo normal.
Un documento compartido, una invitación o un mensaje con instrucciones embebidas inducía a Gemini a ejecutar búsquedas sobre términos estratégicos como «budget» o «acquisition» en todo el entorno de Google Workspace.
Posteriormente, el sistema exfiltraba la información codificándola en la URL de una imagen que se cargaba automáticamente. El ataque no requería interacción del usuario.
Otros incidentes relevantes
- GitHub MCP: atacantes accedieron a repositorios privados mediante issues maliciosos en repositorios públicos que contenían instrucciones ocultas.
- Writer.com: vulnerable a URLs externas que inyectaban prompts capaces de exfiltrar información de documentos privados.
- ChatGPT Operator: susceptible a herramientas de manipulación de texto que podían transmitir información al atacante.
- GitLab Duo: el chatbot podía procesar proyectos públicos con instrucciones maliciosas que lo dirigían a enviar información a dominios externos.
Cómo desactivar la tríada letal
Si la tríada depende de tres condiciones simultáneas, la estrategia consiste en interrumpir al menos una, y cuando sea posible, dos.
Limitar el acceso a datos sensibles
El principio de mínimo privilegio debe aplicarse de forma granular. Cada agente debe acceder únicamente a los datos estrictamente necesarios para su función específica.
- Conceder acceso únicamente a carpetas o servicios estrictamente necesarios
- Reservar las operaciones críticas (modificaciones de nómina, envío de ofertas, cambios contractuales) para aprobación humana explícita
Controlar canales de salida
Si el agente no puede comunicar hacia el exterior sin supervisión, el riesgo de filtración se reduce drásticamente.
- Listas blancas de dominios y destinatarios autorizados
- Políticas de prevención de pérdida de datos
- Límites al tamaño y tipo de adjuntos
- Auditoría completa de comunicaciones salientes
- «Modo borrador»: el agente redacta, pero el humano revisa y autoriza el envío
Tratar el contenido externo como no confiable
Todo contenido que provenga del exterior debe tratarse como potencialmente hostil hasta que se demuestre lo contrario.
- Bloquear la navegación en sitios externos a la organización
- Establecer cuarentenas para adjuntos antes de su procesamiento
- Aplicar técnicas de sanitización que eliminen capas ocultas o metadatos sospechosos
- Definir políticas claras de origen que distingan entre fuentes confiables y no confiables
Checklist antes de desplegar un agente
Antes de poner en producción cualquier agente de IA, el equipo responsable debería poder responder con precisión a estas preguntas:
- ¿Qué contenido externo procesará este agente y de qué fuentes?
- ¿A qué datos internos accederá exactamente y con qué nivel de permisos?
- ¿Qué acciones puede ejecutar hacia el exterior (envíos, actualizaciones, transacciones)?
- ¿Existe registro completo de sus acciones, auditoría y mecanismo de desactivación inmediata?
- ¿En qué puntos del flujo interviene un humano para revisar o autorizar?
Lo que viene después
La primera generación de asistentes de IA se limitaba a sugerir: proponía respuestas, resumía información, recomendaba acciones. La decisión final permanecía en manos humanas. Los agentes actuales cruzan esa frontera: envían correos, mueven archivos, agendan reuniones, actualizan registros, ejecutan transacciones. Este salto de «recomendar» a «hacer» amplifica de forma drástica el impacto de cualquier fallo.
Un agente comprometido no solo puede exfiltrar información; puede influir silenciosamente en las preferencias de los usuarios con fines políticos, comerciales o personales.
El precedente de Cambridge Analytica demostró cómo la explotación de datos personales podía distorsionar procesos electorales en múltiples países. En 2025, investigadores del Alan Turing Institute documentaron cómo una red vinculada a Rusia publicó miles de artículos falsos diseñados no para lectores humanos, sino para los rastreadores que alimentan a los chatbots de IA. En pruebas con 300 consultas, casi el 17% de las respuestas de chatbots comerciales amplificaron estas narrativas falsas.
Los agentes de IA representan un vector de influencia potencialmente más profundo: tienen acceso privilegiado a correos, documentos y patrones de comportamiento, y además pueden actuar sobre esa información sin supervisión directa.
La tríada letal se está consolidando como el marco de referencia para evaluar la superficie de ataque en sistemas agénticos. Como advierte Simon Willison: incluso si un sistema de defensa detecta y previene el 95% de los ataques de prompt injection, cualquier cifra inferior al 100% es insuficiente en ciberseguridad. ¿Confiaríamos en una caja fuerte que solo funciona nueve de cada diez veces?
Mientras no exista una solución 100% fiable, la seguridad dependerá de un esfuerzo compartido: los proveedores deben reforzar las defensas técnicas de sus productos; las organizaciones deben gestionar con mayor rigor el acceso de los agentes a contenido externo y datos sensibles; los usuarios deben mantener una supervisión activa sobre las acciones automatizadas.