lunes, diciembre 1, 2025

Echo Chamber Jailbreak Tricks LLMS como OpenAi y Google para generar contenido dañino

TecnologíaEcho Chamber Jailbreak Tricks LLMS como OpenAi y Google para generar contenido dañino

Los investigadores de ciberseguridad están llamando la atención sobre un nuevo método de jailbreaking llamado Echo Chamber que podría aprovecharse para engañar a los modelos populares de idiomas grandes (LLM) para generar respuestas indeseables, independientemente de las salvaguardas establecidas.

«A diferencia de los jailbreaks tradicionales que se basan en la frases adversas o la ofuscación de los personajes, Echo Chamber arma las referencias indirectas, la dirección semántica e inferencia de varios pasos», dijo el investigador de la trust neural Ahmad Alobaid en un informe compartido con las noticias del hacker.

«El resultado es una manipulación sutil pero poderosa del estado interno del modelo, lo que gradualmente lo lleva a producir respuestas de violación de políticas».

Si bien los LLM han incorporado constantemente varias barandillas para combatir inyecciones rápidas y jailbreaks, la última investigación muestra que existen técnicas que pueden producir altas tasas de éxito con poca o ninguna experiencia técnica.

También sirve para resaltar un desafío persistente asociado con el desarrollo de LLM éticos que impongan una demarcación clara entre lo que los temas son aceptables y no aceptables.

Si bien los LLM ampliamente utilizados están diseñados para rechazar las indicaciones del usuario que giran en torno a temas prohibidos, pueden ser empujados para obtener respuestas poco éticas como parte de lo que se llama un ritmo de jail de múltiples vueltas.

En estos ataques, el atacante comienza con algo inocuo y luego progresivamente le pide a un modelo una serie de preguntas cada vez más maliciosas que finalmente lo engañan para producir contenido dañino. Este ataque se conoce como crescendo.

Los LLM también son susceptibles a jailbreaks de muchos disparos, que aprovechan su gran ventana de contexto (es decir, la cantidad máxima de texto que puede encajar dentro de un aviso) para inundar el sistema AI con varias preguntas (y respuestas) que exhiben un comportamiento jailbroken que precede a la pregunta dañina final. Esto, a su vez, hace que el LLM continúe el mismo patrón y produzca contenido dañino.

La cámara de eco, según la trust neural, aprovecha una combinación de envenenamiento con contexto y razonamiento múltiple para derrotar los mecanismos de seguridad de un modelo.

Ataque de la cámara de eco

«La principal diferencia es que Crescendo es el que dirige la conversación desde el principio, mientras que la Cámara de Echo está pidiendo al LLM que llene los vacíos y luego dirigimos el modelo en consecuencia usando solo las respuestas de LLM», dijo Alobaid en un comunicado compartido con las noticias del hacker.

Específicamente, esto se desarrolla como una técnica de incrustación adversaria en varias etapas que comienza con un aporte aparentemente inocuo, mientras que la dirige gradual e indirectamente hacia la generación de contenido peligroso sin regalar el objetivo final del ataque (por ejemplo, generar discurso de odio).

«Las primeras indicaciones plantadas influyen en las respuestas del modelo, que luego se aprovechan en los giros posteriores para reforzar el objetivo original», dijo NeuralTrust. «Esto crea un ciclo de retroalimentación donde el modelo comienza a amplificar el subtexto dañino incrustado en la conversación, erosionando gradualmente sus propias resistencias de seguridad».

En un entorno de evaluación controlado utilizando los modelos de Operai y Google, el ataque de la cámara de eco alcanzó una tasa de éxito de más del 90% sobre temas relacionados con el sexismo, la violencia, el discurso de odio y la pornografía. También logró casi el 80% de éxito en las categorías de información errónea y autolesión.

«El ataque de la cámara de eco revela un punto ciego crítico en los esfuerzos de alineación de LLM», dijo la compañía. «A medida que los modelos se vuelven más capaces de una inferencia sostenida, también se vuelven más vulnerables a la explotación indirecta».

La divulgación se produce cuando CATO Networks demostró un ataque de prueba de concepto (POC) que se dirige al servidor del Protocolo de contexto del modelo de Atlassian (MCP) y su integración con JIRA Service Management (JSM) para desencadenar ataques de inyección rápidos cuando un ticket de apoyo malicioso enviado por un actor de amenaza externa es procesado por un ingeniero de soporte utilizando herramientas de MCP.

La compañía de ciberseguridad ha acuñado el término «Vivir fuera de la IA» para describir estos ataques, donde un sistema de IA que ejecuta aportes no confiables sin garantías de aislamiento adecuadas puede ser abusado por los adversarios para obtener acceso privilegiado sin tener que autenticarse.

«El actor de amenaza nunca accedió directamente al MCP Atlassian», dijeron los investigadores de seguridad Guy Waizel, Dolev Moshe Attiya y Shlomo Bamberger. «En cambio, el ingeniero de apoyo actuó como un proxy, ejecutando sin saberlo instrucciones maliciosas a través de Atlassian MCP».

Artículos más populares