Los navegadores web agentes que aprovechan las capacidades de inteligencia artificial (IA) para ejecutar acciones de forma autónoma en múltiples sitios web en nombre de un usuario podrían ser entrenados y engañados para que sean víctimas de trampas de phishing y estafas.
El ataque, en esencia, aprovecha la tendencia de los navegadores de inteligencia artificial a razonar sus acciones y usarla contra el modelo mismo para reducir sus barreras de seguridad, dijo Guardio en un informe compartido con The Hacker News antes de su publicación.
«La IA ahora opera en tiempo real, dentro de páginas dinámicas y desordenadas, mientras solicita información continuamente, toma decisiones y narra sus acciones a lo largo del camino. Bueno, ‘narrar’ es un eufemismo: habla, ¡y demasiado!», dijo el investigador de seguridad Shaked Chen.
«Esto es lo que llamamos Parloteo agente: el navegador AI expone lo que ve, lo que cree que está sucediendo, lo que planea hacer a continuación y qué señales considera sospechosas o seguras».
Al interceptar este tráfico entre el navegador y los servicios de IA que se ejecutan en los servidores del proveedor y alimentarlo como entrada a una Red Generativa Adversaria (GAN), Guardio dijo que pudo hacer que el navegador Comet AI de Perplexity fuera víctima de una estafa de phishing en menos de cuatro minutos.
La investigación se basa en técnicas anteriores como VibeScamming y Scamlexity, que descubrieron que las plataformas de codificación de vibraciones y los navegadores de inteligencia artificial podrían ser persuadidos para generar páginas fraudulentas o llevar a cabo acciones maliciosas mediante inyecciones de avisos ocultas. En otras palabras, cuando el agente de IA maneja las tareas sin supervisión humana constante, surge un cambio en la superficie de ataque en el que una estafa ya no tiene que engañar al usuario. Más bien, pretende engañar al propio modelo de IA.
«Si puedes observar lo que el agente considera sospechoso, lo que duda y, lo que es más importante, lo que piensa y parlotea sobre la página, puedes usarlo como señal de entrenamiento», explicó Chen. «La estafa evoluciona hasta que AI Browser cae de manera confiable en la trampa que otra IA le tendió».

La idea, en pocas palabras, es construir una «máquina de estafa» que optimice y regenere de forma iterativa una página de phishing hasta que el navegador agente deje de quejarse y proceda a llevar a cabo las órdenes del actor de la amenaza, como ingresar las credenciales de la víctima en una página web falsa diseñada para llevar a cabo una estafa de reembolso.
Lo que hace que este ataque sea interesante y peligroso es que una vez que el estafador itera en una página web hasta que funciona contra un navegador de IA específico, funciona en todos los usuarios que dependen del mismo agente. Dicho de otra manera, el objetivo ha pasado del usuario humano al navegador de IA.
«Esto revela el desafortunado futuro cercano al que nos enfrentamos: las estafas no sólo se lanzarán y ajustarán en la naturaleza, sino que se entrenarán fuera de línea, según el modelo exacto en el que confían millones de personas, hasta que funcionen perfectamente en el primer contacto», dijo Guardio. «Porque cuando su navegador AI explica por qué se detuvo, les enseña a los atacantes cómo evitarlo».
La divulgación se produce cuando Trail of Bits demostró cuatro técnicas de inyección rápida contra el navegador Comet para extraer información privada de los usuarios de servicios como Gmail explotando el asistente de inteligencia artificial del navegador y extrayendo los datos al servidor de un atacante cuando el usuario solicita resumir una página web bajo su control.
La semana pasada, Zenity Labs también detalló dos ataques sin clic que afectan a Comet de Perplexity y que utilizan una inyección indirecta de mensajes dentro de las invitaciones a reuniones para filtrar archivos locales a un servidor externo (también conocido como PerplexedComet) o secuestrar la cuenta 1Password de un usuario si la extensión del administrador de contraseñas está instalada y desbloqueada. Los problemas, denominados colectivamente PerplexedBrowser, han sido abordados desde entonces por la empresa de inteligencia artificial.
Esto se logra mediante una técnica de inyección rápida conocida como colisión de intenciones, que ocurre «cuando el agente fusiona una solicitud de usuario benigna con instrucciones controladas por un atacante a partir de datos web no confiables en un único plan de ejecución, sin una forma confiable de distinguir entre los dos», dijo el investigador de seguridad Stav Cohen.
Los ataques de inyección rápida siguen siendo un desafío de seguridad fundamental para los modelos de lenguajes grandes (LLM) y para su integración en los flujos de trabajo organizacionales, en gran parte porque eliminar por completo estas vulnerabilidades puede no ser factible. En diciembre de 2025, OpenAI señaló que es «poco probable que» tales debilidades se resuelvan por completo en los navegadores agentes, aunque los riesgos asociados podrían reducirse mediante el descubrimiento automatizado de ataques, el entrenamiento de adversarios y nuevas salvaguardas a nivel del sistema.