Investigadores de ciberseguridad han revelado detalles de una vulnerabilidad en OpenAI ChatGPT que aprovecha la confianza implícita del asistente de inteligencia artificial (IA) en enlaces e imágenes de Markdown para activar inyecciones rápidas y abrir la puerta a ataques de phishing.
La técnica ha recibido el nombre en código. ChatGPhish por Permiso Seguridad.
«El procesador de respuestas chatgpt.com confía en los enlaces de Markdown y en las URL de imágenes de Markdown que se originaron en una página de terceros que el asistente acaba de resumir. Auto-busca esas imágenes y muestra esos enlaces como elementos activos en los que se puede hacer clic dentro de la interfaz de usuario confiable del asistente», dijo el investigador de seguridad Andi Ahmeti en un informe compartido con The Hacker News.
En un escenario de ataque hipotético, un mal actor puede agregar una pequeña carga útil a cualquier página web que la víctima luego solicita a ChatGPT que resuma, lo que hace que se filtren sus detalles de IP, agente de usuario y referencia cuando las imágenes alojadas por el atacante incrustadas en la página se recuperan automáticamente cuando se presenta la respuesta.
Además, puede dar como resultado que enlaces Markdown maliciosos se presenten como elementos en vivo en los que se puede hacer clic dentro de la respuesta del asistente, generar alertas de seguridad de estilo sistema muy falsas y enviar un código QR desde el depósito S3 de un atacante y engañar a la víctima para que lo escanee a través de su dispositivo móvil, evitando efectivamente los filtros de URL de escritorio y los controles de seguridad empresariales.
El último hallazgo demuestra cómo el resumen puede surgir como una superficie conflictiva. A principios de marzo, Permiso también reveló cómo un correo electrónico controlado por un atacante que contiene instrucciones especialmente diseñadas, cuando Microsoft Copilot las resume, podría influir en su salida a través de una inyección cruzada (XPIA) o una inyección indirecta.
Lo que hace que ChatGPhish sea una técnica de ataque notable no es la inyección rápida en sí, sino la forma en que se siguen las instrucciones incrustadas en una página web y se presentan al usuario como parte del resumen.
En otras palabras, una página web normal resumida con ChatGPT es suficiente para mostrar enlaces de phishing, alertas de cuentas falsificadas, imágenes remotas y códigos QR directamente dentro de una interfaz de IA confiable. A medida que las organizaciones utilizan cada vez más ChatGPT para investigaciones y resúmenes, esta vulnerabilidad significa que cualquier página web maliciosa que un empleado le pida al chatbot de IA que procese podría contener una carga útil que transforma ChatGPT en una superficie de phishing.
«El cambio del correo electrónico al navegador amplía significativamente la superficie de ataque potencial. Un usuario ya no tiene que abrir un archivo adjunto malicioso o interactuar con un mensaje sospechoso», dijo Permiso. «Simplemente resumir una página durante la actividad de navegación normal puede introducir instrucciones controladas por el atacante en el contexto del modelo y, en última instancia, en la respuesta representada».
La divulgación se produce cuando Adversa AI documentó dos técnicas de ataque con nombre en código SymJack y TrustFall dirigidas a agentes de codificación de IA y CLI de codificación agente que permiten a los atacantes lograr la ejecución del código y comprometer completamente la máquina.
SymJack es «un patrón de ataque único (que) permite a un repositorio malicioso lograr la ejecución remota de código a través de asistentes de codificación de IA», dijo el investigador de seguridad Rony Utevsky. «El agente es engañado para crear una copia de archivo de apariencia benigna que sobrescribe secretamente su propia configuración, y el siguiente reinicio ejecuta el código del atacante con todos los privilegios de usuario».
Específicamente, un repositorio trampa engaña al agente para que copie un archivo aparentemente inofensivo, donde el destino es un enlace simbólico que apunta a la propia configuración del agente, lo que provoca que la carga útil del atacante se escriba en la configuración. En el siguiente reinicio, un servidor malicioso de Protocolo de contexto de modelo (MCP) genera y ejecuta código arbitrario con privilegios de usuario completos.
TrustFall, por otro lado, es un ataque de ejecución remota de código con un solo clic a través de un repositorio malicioso que puede enviar una configuración que aprueba automáticamente y genera un servidor MCP sin la aprobación explícita del usuario ni requiere una llamada de herramienta por parte del agente.
Para decirlo de otra manera, todo lo que un actor de amenazas necesita para llevar a cabo el ataque es crear un repositorio que incluya un servidor MCP malicioso y ajustes de configuración que aprueben automáticamente su ejecución. Cuando un desarrollador clona o abre el repositorio en la herramienta de codificación de IA y presiona «Entrar» en el mensaje de confianza de la carpeta, la herramienta de codificación de IA termina lanzando el código controlado por el atacante con todos los privilegios del sistema del desarrollador.
«En el momento en que una víctima clona el repositorio, ejecuta Claude y hace clic en el cuadro de diálogo genérico ‘Sí, confío en esta carpeta’, el servidor MCP se inicia como un proceso del sistema operativo nativo con privilegios de usuario completos», señaló Adversa AI. «La carga útil se ejecuta al iniciar el servidor, antes de que se llame a cualquier herramienta y sin indicaciones adicionales».
Los hallazgos coinciden con el descubrimiento de varios métodos de ataque contra modelos de IA en los últimos meses:
- El uso de un novedoso enfoque de jailbreak llamado Aprendizaje involuntario en contexto (IICL) que «explota la tensión entre el aprendizaje en contexto (ICL) y la alineación de seguridad» para evitar las restricciones de seguridad de GPT-5.4
- Las barreras de seguridad de los LLM se pueden eludir si un usuario engaña al modelo para que tenga una conversación de varios turnos. «La evaluación de múltiples turnos es importante por una razón: es donde realmente viven los atacantes», dijo Cisco. «Los adversarios reales iteran. Replantean rechazos, descomponen tareas en turnos, adoptan personajes y escalan gradualmente. Un punto de referencia de un solo turno no puede ver nada de eso».
- Una vulnerabilidad en Anthropic Claude Code que emplea un cambio de configuración a nivel de usuario en «~/.claude.json» para reescribir los puntos finales de MCP a través de un paquete npm fraudulento para colocar a un atacante entre Claude Code y un servidor MCP respaldado por OAuth, lo que permite al mal actor capturar tokens utilizados para el acceso SaaS descendente.
- El uso de un mecanismo de actualización remota que permite que una habilidad de OpenClaw parezca benigna en el momento de la instalación, pero luego permite que el atacante influya en el agente a través de archivos del espacio de trabajo al indicarle al usuario durante la configuración de la habilidad que agregue instrucciones específicas al archivo HEARTBEAT.md.
- El uso de texto oculto con contenido extraído de un boletín legítimo o una novela romántica en correos electrónicos de phishing para confundir a un sistema de seguridad de correo electrónico basado en inteligencia artificial y marcar el mensaje como benigno.
- Una vulnerabilidad en la extensión del navegador Chrome de Claude llamada ClaudeBleed permite que cualquier extensión, incluso aquellas sin permisos especiales, la secuestre y engañe al asistente de IA para que realice acciones activas en su nombre. «La falla surge de una instrucción en el código de la extensión que permite que cualquier script que se ejecute en el navegador de origen se comunique con el LLM de Claude, pero no verifica quién está ejecutando el script», dijo LayerX. «Como resultado, cualquier extensión puede invocar un script de contenido (que no requiere ningún permiso especial) y emitir comandos a la extensión Claude».
- Un estudio de Cisco ha descubierto que el texto contradictorio representado como imágenes, un ataque conocido como inyección tipográfica rápida, se puede utilizar para evitar los filtros de seguridad en los modelos de lenguaje de visión (VLM). «Cuando un modelo no puede leer la imagen original (fuente pequeña, muy borrosa, rotación), una perturbación limitada puede recuperar el contenido semántico en la representación interna del modelo sin restaurar la legibilidad visual para un humano», dijo Cisco. «Esto significa que un atacante puede crear imágenes que parezcan ruido o distorsión ilegible en cualquier filtro de contenido basado en OCR y, al mismo tiempo, llevar instrucciones completamente legibles al VLM objetivo».
- Un conjunto de vulnerabilidades en Microsoft Semantic Kernel (CVE-2026-25592 y CVE-2026-26030) que podrían convertir una inyección rápida en una ejecución remota de código a nivel de host.
- El uso del ataque de inyección rápida de Neural Exec y la función Unicode de anulación de derecha a izquierda para evitar los filtros de entrada y salida de Apple y las barreras de seguridad en el modelo local de Apple Intelligence y engañar al LLM para que produzca resultados dirigidos por el atacante. El problema se solucionó en iOS 26.4 y macOS 26.4.
- Una vulnerabilidad de inyección indirecta con nombre en código WebPromptTrap afecta a BrowserOS, un navegador agente de código abierto, que engaña a los usuarios para que aprueben un paso de autorización a través de un resumen de IA generado al procesar un artículo de apariencia legítima con instrucciones ocultas. El problema se solucionó en la versión 0.32.0 de BrowserOS.
- Una auditoría del ecosistema de habilidades de los agentes que abarca ClawHub y skills.sh ha descubierto que el 13,4% de 3984 habilidades (es decir, 534 en total) tienen al menos un problema de seguridad crítico, incluida la distribución de malware, ataques de inyección rápida y secretos expuestos. Aproximadamente 1.467 habilidades tienen al menos una falla de seguridad, que va desde claves API codificadas y manejo inseguro de credenciales hasta exposición a contenido de terceros.
- Un par de ataques dirigidos a NemoClaw, la pila de referencia de código abierto de NVIDIA para proteger a los agentes de IA de OpenClaw, para exfiltrar datos de OpenClaw utilizando la configuración predeterminada del sandbox a través de un repositorio GitHub malicioso o un paquete npm.
A medida que los modelos fronterizos de IA continúan evolucionando y madurando, los actores de amenazas experimentan cada vez más con la tecnología para escribir malware con capacidades adicionales para adaptar dinámicamente su comportamiento en un intento de evadir la detección, así como descargar la toma de decisiones al LLM para determinar si el entorno comprometido es valioso o lo suficientemente seguro como para descartar cargas útiles de la siguiente etapa.
«A corto plazo, la proliferación de capacidades de modelos de IA de frontera corre el riesgo de empoderar a los adversarios para explotar los días cero y los días N a una escala sin precedentes», dijo la Unidad 42 de Palo Alto Networks. «También es probable que permita a los atacantes moverse a mayor escala, sofisticación y velocidad que nunca antes».
El mes pasado, la empresa de ciberseguridad también detalló un agente de prueba de concepto (PoC) llamado Zealot que aprovecha el poder de los LLM para realizar ataques en la nube de un extremo a otro con una mínima guía humana mediante la explotación de vulnerabilidades y configuraciones erróneas conocidas.
Esto, a su vez, se debe al hecho de que los entornos de nube están «preparados para ataques de IA» de forma predeterminada, dado que cada acción tiene un equivalente de API, tienen diversos mecanismos de descubrimiento como metadatos y servicios de enumeración, están plagados de configuraciones erróneas y están impulsados por el acceso basado en credenciales.
«Los LLM actuales pueden encadenar reconocimiento, explotación, escalada de privilegios y exfiltración de datos con una mínima guía humana», señalaron los investigadores de la Unidad 42, Yahav Festinger y Chen Doytshman. «Los ataques no son novedosos, pero la automatización significa que las operaciones que antes requerían experiencia especializada ahora pueden ser orquestadas por un agente de IA siguiendo patrones establecidos».