Dos equipos de seguridad han demostrado, en una investigación separada publicada esta semana, que OpenClaw, el popular agente de IA autohospedado, puede ejecutar código controlado por un atacante o entregar datos confidenciales a través de entradas de apariencia ordinaria.
Imperva enterró instrucciones dentro de contactos compartidos, vCards y pines de ubicación que el agente ejecutaba sin que la víctima los viera. Varonis creó un agente de prueba en la plataforma, le proporcionó un buzón lleno de datos comerciales sintéticos y observó cómo un solo correo electrónico simple lo convenció para que reenviara claves AWS simuladas y una exportación de cliente falsa a una dirección externa.
La falla que encontró Imperva está parcheada en OpenClaw 2026.4.23, así que actualícela si la ejecuta. La debilidad del phishing que encontró Varonis no es algo que solucione un parche; todo se reduce a limitar lo que el agente puede hacer por sí solo.
Puertas diferentes a una misma habitación: el agente confía en lo que le llega y su acceso pasa a ser el del atacante.
Comandos ocultos en un contacto compartido
El investigador de Imperva, Yohann Sillam, analizó cómo OpenClaw entrega datos de mensajería al modelo detrás de él. El problema está en las tuberías.
Cuando el agente pasa un contacto compartido, una vCard o una ubicación al LLM, aplana el objeto en el texto del mensaje en línea, sin ningún límite que lo marque como no confiable. El contenido que el agente obtiene de la web se incluye en un marcador de contenido que no es de confianza. Los objetos de mensaje no.
Sólo algunos campos viajan al modelo, y de eso es de lo que abusa el ataque. Un contacto compartido envía solo el campo de nombre, serializado como
El mismo truco funciona a través del campo de nombre completo de una vCard, que WhatsApp admite de forma nativa, y a través de la etiqueta en un pin de ubicación compartida.
En las pruebas de Imperva contra Gemini 3.1 Pro (versión preliminar), el texto oculto le indicó al agente que descargara y ejecutara un script desde un servidor controlado por los investigadores. Lo hizo. Una imagen sencilla con instrucciones enterradas falló, probablemente porque ese ataque se ha informado con tanta frecuencia que ahora los modelos están entrenados para resistirlo; la ruta mensaje-objeto funcionó porque los modelos han visto muchos menos ejemplos de ella.

Con la memoria de OpenClaw activada de forma predeterminada, advierte Imperva, una sola pieza de contenido ampliamente compartido que contenga una instrucción oculta podría comprometer silenciosamente a los agentes que lo ingieren, si no están protegidos.
Imperva reveló el problema y OpenClaw envió una solución en la versión 2026.4.23 que mueve los nombres de los contactos, los campos vCard y las etiquetas de ubicación fuera del cuerpo del mensaje y a un canal de metadatos separado que no es de confianza. Imperva encontró el mismo patrón de aplanamiento en otros asistentes personales de IA, por lo que el problema subyacente no es sólo de OpenClaw.
Un correo electrónico normal es suficiente
Varonis Threat Labs llegó a OpenClaw desde el ángulo social. En una investigación dirigida por Itay Yashar, el equipo creó un agente llamado pellizco en la plataforma, lo conectó a una bandeja de entrada de Gmail repleta de desorden empresarial realista pero sintético y secretos simulados, y lo ejecutó a través de cuatro simulaciones de phishing en Google Gemini 3.1 Pro y OpenAI Codex GPT-5.4.
Trazan una línea entre la inyección rápida, que oculta instrucciones en los datos, y lo que llaman phishing del agente: una solicitud creíble que llega a través de un canal normal y funciona porque el agente actúa antes de verificar quién la envió.
El agente no pasó ambas pruebas de exfiltración. En el primero, un mensaje que se hacía pasar por un líder de equipo llamado Dan, enviado desde una dirección externa de Gmail, solicitaba acceso provisional durante un incidente de producción falso. Pinchy encontró las credenciales y reenvió claves de acceso simuladas de AWS IAM, cadenas de conexión de bases de datos y credenciales SSH en texto sin formato.

El segundo pretexto fue más suave: una petición que parecía rutinaria para la exportación semanal del cliente, supuestamente para una plataforma QBR. El agente envió un conjunto de datos sintéticos de 247 clientes empresariales, incluidos contactos y valores de contratos. Ambas fallas ocurrieron bajo un perfil estricto que le pedía al agente que verificara primero a los remitentes. La regla existía. La urgencia le ganó una vez, la rutina le ganó la segunda vez.
El agente tuvo mejores resultados cuando la amenaza era técnica más que social. Interactuó con una página de phishing de tarjetas de regalo, pero retuvo credenciales reales y finalmente la marcó; el perfil estricto bloqueó la página por completo. En una pantalla de consentimiento de OAuth maliciosa disfrazada de una aplicación de parte de horas, inspeccionó el objetivo de redireccionamiento, lo consideró sospechoso y se detuvo antes de otorgarle acceso.
Ésa es la división que señala Varonis: el agente es mejor que muchas personas para detectar URL incorrectas y portales de inicio de sesión falsos, y peor en el juicio social que hace una pausa humana cuando un colega de repente pide credenciales a una hora extraña. El impulso para ser útil es la superficie de ataque.

Varonis dice que OpenAI Codex GPT-5.4 fue más cauteloso que Gemini 3.1 Pro al ingresar o enviar datos a sitios externos sin confirmación, pero ambos cayeron en los pretextos sociales.
El punto débil detrás de ambos ataques
Varonis relaciona ambos ataques con lo que Simon Willison llama la trifecta letal: un agente que puede leer datos privados, recibir contenido que no es de confianza y enviar datos de vuelta. OpenClaw tiene los tres, por lo que un contacto envenenado y un correo electrónico amigable terminan en el mismo lugar.
Ese límite de confianza no es sólo un problema inmediato; también aparece en el código de OpenClaw. Un análisis separado de InfoSec Write-ups convirtió los avisos anteriores de OpenClaw en reglas de análisis estático y luego los usó para encontrar cinco fallas más en las extensiones de canal Slack, Discord, Matrix, Zalo y Microsoft Teams.
Los cinco tenían el mismo error: el código de inicio resolvió la lista de permitidos de cada canal mediante un nombre para mostrar mutable en lugar de una identificación estable, por lo que un atacante que se cambiara el nombre para coincidir con un usuario permitido podría ingresar a la lista y dirigir al agente. OpenClaw los ha parcheado.
OpenClaw viene con amplio acceso a archivos, shells y más de veinte plataformas de mensajería, y ha recibido una serie constante de advertencias de inyección rápida y exfiltración de datos desde su lanzamiento a fines del año pasado.
La autoridad holandesa de protección de datos adoptó la línea más fuerte: Autoriteit Persoonsgegevens dijo a los usuarios y organizaciones que no ejecutaran OpenClaw en sistemas que contengan datos confidenciales, citando riesgos de violación de datos y apropiación de cuentas.
¿Qué hacer al respecto?
Cualquiera que ejecute OpenClaw debe actualizar a 2026.4.23 o posterior para corregir el objeto de mensaje. El resto es arquitectura, no redacción inmediata, y Varonis establece cuatro controles.
Trate el archivo de instrucciones del agente como una política aplicada y controlada por versiones, no como una sugerencia. El correo saliente necesita una puerta: no se permite realizar envíos por primera vez a direcciones desconocidas sin aprobación, por lo que un agente secuestrado no puede transmitir phishing desde una cuenta confiable. El acceso al conector debe rastrear el nivel de confianza de lo que desencadenó la tarea, por lo que una bandeja de entrada que maneja correo electrónico externo no puede leer también todo el CRM. Y las acciones más riesgosas, reenviar credenciales o mover dinero, deberían esperar a que llegue un ser humano.
Ambos equipos aterrizan en el mismo modelo mental. Varonis lo plantea como tratar al agente como un empleado junior con acceso al sistema y sin instinto para lo que parece extraño, no como una herramienta de seguridad. Imperva llega desde la otra dirección, llamándolo un ejecutor autenticado que confía en sus entradas.
Las soluciones que se ofrecen hoy son parches y barandillas específicos. El problema más difícil aún está abierto. Un agente lo suficientemente útil como para actuar en su correo electrónico y ejecutar sus comandos es, por diseño, uno que confía en las entradas y quiere ayudar, y nadie tiene una solución general para eso todavía.