Los investigadores de ciberseguridad han señalado un nuevo problema de seguridad en navegadores web agentes como OpenAI ChatGPT Atlas que expone los modelos subyacentes de inteligencia artificial (IA) a ataques de envenenamiento contextual.
En el ataque ideado por la empresa de seguridad de inteligencia artificial SPLX, un mal actor puede configurar sitios web que ofrecen contenido diferente a los navegadores y rastreadores de inteligencia artificial administrados por ChatGPT y Perplexity. La técnica ha recibido el nombre en código. Encubrimiento dirigido a IA.
El enfoque es una variación del encubrimiento de los motores de búsqueda, que se refiere a la práctica de presentar una versión de una página web a los usuarios y una versión diferente a los rastreadores de los motores de búsqueda con el objetivo final de manipular las clasificaciones de búsqueda.
La única diferencia en este caso es que los atacantes optimizan los rastreadores de IA de varios proveedores mediante una comprobación trivial del agente de usuario que conduce a la manipulación de la entrega de contenido.
«Debido a que estos sistemas dependen de la recuperación directa, cualquier contenido que se les proporcione se convierte en verdad en las descripciones generales, resúmenes o razonamiento autónomo de la IA», dijeron los investigadores de seguridad Ivan Vlahov y Bastien Eymery. «Eso significa que una única regla condicional, ‘si agente de usuario = ChatGPT, en su lugar, publique esta página’, puede dar forma a lo que millones de usuarios ven como resultados autorizados».
SPLX dijo que el encubrimiento dirigido a la IA, aunque engañosamente simple, también puede convertirse en una poderosa arma de desinformación, socavando la confianza en las herramientas de IA. Al indicar a los rastreadores de IA que carguen algo más en lugar del contenido real, también puede introducir sesgos e influir en el resultado de los sistemas que se basan en dichas señales.
«Los rastreadores de IA pueden ser engañados tan fácilmente como los primeros motores de búsqueda, pero con un impacto posterior mucho mayor», dijo la compañía. «A medida que el SEO (optimización de motores de búsqueda) incorpora cada vez más AIO (optimización de inteligencia artificial), manipula la realidad».
La divulgación se produce cuando un análisis de los agentes del navegador contra 20 de los escenarios de abuso más comunes, que van desde cuentas múltiples hasta pruebas de tarjetas y suplantación de soporte, descubrió que los productos intentaron casi todas las solicitudes maliciosas sin necesidad de ningún jailbreak, dijo el hCaptcha Threat Analysis Group (hTAG).
Además, el estudio encontró que en escenarios en los que una acción estaba «bloqueada», en su mayoría se bloqueaba debido a que la herramienta carecía de capacidad técnica y no a las salvaguardas incorporadas. Se ha descubierto que ChatGPT Atlas, señaló hTAG, lleva a cabo tareas riesgosas cuando se encuadran como parte de ejercicios de depuración.
Claude Computer Use y Gemini Computer Use, por otro lado, han sido identificados como capaces de ejecutar operaciones de cuenta peligrosas, como restablecer contraseñas, sin ninguna restricción, y este último también demuestra un comportamiento agresivo cuando se trata de cupones de fuerza bruta en sitios de comercio electrónico.
hTAG también probó las medidas de seguridad de Manus AI y descubrió que ejecuta apropiaciones de cuentas y secuestro de sesiones sin ningún problema, mientras que Perplexity Comet ejecuta una inyección SQL espontánea para filtrar datos ocultos.
«Los agentes a menudo iban más allá, intentando la inyección de SQL sin una solicitud del usuario, inyectando JavaScript en la página para intentar eludir los muros de pago y más», decía. «La falta casi total de salvaguardias que observamos hace que sea muy probable que estos mismos agentes también sean utilizados rápidamente por atacantes contra cualquier usuario legítimo que los descargue».