lunes, diciembre 1, 2025

Nuevos informes descubren jailbreaks, código inseguro y riesgos de robo de datos en los principales sistemas de IA

TecnologíaNuevos informes descubren jailbreaks, código inseguro y riesgos de robo de datos en los principales sistemas de IA

Se han encontrado varios servicios generativos de inteligencia artificial (Genai) vulnerable a dos tipos de ataques de jailbreak que hacen posible producir contenido ilícito o peligroso.

La primera de las dos técnicas, el Inception con nombre en código, instruye a una herramienta de IA para imaginar un escenario ficticio, que luego se puede adaptar a un segundo escenario dentro del primero donde no existe las barandillas de seguridad.

«Continuar con la intención de IA dentro del segundo contexto de escenarios puede resultar en el derivación de las barandillas de seguridad y permitir la generación de contenido malicioso», dijo el Centro de Coordinación CERT (CERT/CC) en un aviso publicado la semana pasada.

El segundo jailbreak se realiza al pedir información sobre cómo no responder a una solicitud específica.

«A la IA se puede obtener más que las solicitudes de responder de manera normal, y el atacante puede hacer un girar de un lado a otro entre preguntas ilícitas que evitan las barandillas de seguridad y las indicaciones normales», agregó CERT/CC.

La explotación exitosa de cualquiera de las técnicas podría permitir que un mal actor evite las protecciones de seguridad y seguridad de varios servicios de IA como Operai Chatgpt, Anthrope Claude, Microsoft Copilot, Google Gemini, Xai Grok, Meta Ai y Mistral AI.

Esto incluye temas ilícitos y dañinos, como sustancias controladas, armas, correos electrónicos de phishing y generación de código de malware.

En los últimos meses, los principales sistemas de IA se han encontrado susceptibles a otros tres ataques,

  • Ataque de cumplimiento del contexto (CCA), una técnica de jailbreak que involucra al adversario inyectando una «respuesta de asistente simple en el historial de conversación» sobre un tema potencialmente sensible que expresa preparación para proporcionar información adicional
  • Policy Puppetry Attack, una técnica de inyección rápida que crea instrucciones maliciosas para parecerse a un archivo de política, como XML, INI o JSON, y luego la pasa como entrada al modelo de lenguaje grande (LLMS) para evitar alineaciones de seguridad y extraer el Sistema solicitado
  • Ataque de inyección de memoria (Minja), que implica inyectar registros maliciosos en un banco de memoria al interactuar con un agente de LLM a través de consultas y observaciones de salida y lleva al agente a realizar una acción indeseable

La investigación también ha demostrado que los LLM se pueden usar para producir un código inseguro de forma predeterminada al proporcionar indicaciones ingenuas, subrayando las dificultades asociadas con la codificación de vibos, que se refiere al uso de herramientas Genai para el desarrollo de software.

«Incluso al solicitar un código seguro, realmente depende del nivel de detalle de la solicitud, los idiomas, la posible CWE y la especificidad de las instrucciones», dijo Backslash Security. «Ergo: tener barandillas incorporadas en forma de políticas y reglas rápidas es invaluable para lograr un código consistentemente seguro».

Además, una evaluación de seguridad y seguridad de GPT-4.1 de Opengai ha revelado que el LLM tiene tres veces más probabilidades de salirse del tema y permitir el mal uso intencional en comparación con su predecesor GPT-4O sin modificar el indicador del sistema.

«Actualizar al último modelo no es tan simple como cambiar el parámetro del nombre del modelo en su código», dijo Splxai. «Cada modelo tiene su propio conjunto único de capacidades y vulnerabilidades que los usuarios deben tener en cuenta».

«Esto es especialmente crítico en casos como este, donde el último modelo interpreta y sigue las instrucciones de manera diferente a sus predecesores, introduciendo preocupaciones de seguridad inesperadas que afectan a las organizaciones que implementan aplicaciones con AI y los usuarios que interactúan con ellos».

Las preocupaciones sobre GPT-4.1 se producen menos de un mes después de que Operai actualizó su marco de preparación que detalla cómo probará y evaluará modelos futuros antes de la liberación, afirmando que puede ajustar sus requisitos si «otro desarrollador de IA fronteriza libera un sistema de alto riesgo sin salvaguardas comparables».

Esto también ha provocado preocupaciones de que la compañía de IA pueda estar apresurando nuevos lanzamientos de modelo a expensas de reducir los estándares de seguridad. Un informe de The Financial Times a principios de este mes señaló que OpenAi dio al personal y a los grupos de terceros menos de una semana por controles de seguridad antes de la publicación de su nuevo modelo O3.

El ejercicio de equipo rojo de METR en el modelo ha demostrado que «parece tener una mayor propensión a hacer trampa o piratear tareas de manera sofisticada para maximizar su puntaje, incluso cuando el modelo comprende claramente que este comportamiento está desalineado con las intenciones del usuario y OpenAI».

Los estudios han demostrado además que el Protocolo de contexto del modelo (MCP), un estándar abierto ideado por antrópico para conectar fuentes de datos y herramientas con IA, podría abrir nuevas vías de ataque para inyección indirecta y acceso a datos no autorizados.

«Un servidor malicioso (MCP) no solo puede exfiltrar los datos confidenciales del usuario, sino también secuestrar el comportamiento del agente y anular las instrucciones proporcionadas por otros servidores de confianza, lo que lleva a un compromiso completo de la funcionalidad del agente, incluso con respecto a la infraestructura confiable», dijeron laboratorios invariantes basados ​​en Suiza.

El enfoque, conocido como un ataque de envenenamiento de herramientas, ocurre cuando las instrucciones maliciosas se integran dentro de las descripciones de herramientas MCP que son invisibles para los usuarios pero que se pueden legibles para los modelos de IA, manipulándolas para llevar a cabo actividades de exfiltración de datos encubiertos.

En un ataque práctico exhibido por la compañía, los historiales de chat de WhatsApp se pueden desviar desde un sistema de agente como el cursor o el escritorio de Claude que también está conectado a una instancia de servidor de WhatsApp MCP de confianza al alterar la descripción de la herramienta después de que el usuario ya lo haya aprobado.

Los desarrollos siguen el descubrimiento de una extensión sospechosa de Google Chrome que está diseñada para comunicarse con un servidor MCP que ejecuta localmente en una máquina y otorgar a los atacantes la capacidad de tomar el control del sistema, violando efectivamente las protecciones de Sandbox del navegador.

«La extensión de Chrome tenía acceso sin restricciones a las herramientas del servidor MCP, no se necesitaba autenticación, e interactuaba con el sistema de archivos como si fuera una parte central de las capacidades expuestas del servidor», dijo ExtensionTotal en un informe la semana pasada.

«El impacto potencial de esto es masivo, abriendo la puerta a una explotación maliciosa y un compromiso completo del sistema».

Artículos más populares