Google ha revelado las diversas medidas de seguridad que se están incorporando a sus sistemas generativos de inteligencia artificial (IA) para mitigar los vectores de ataque emergentes como inyecciones indirectas y mejorar la postura general de seguridad para los sistemas de IA agente.
«A diferencia de las inyecciones directas de inmediato, donde un atacante ingresa directamente los comandos maliciosos en una rápida indirecta inyecciones indirectas que implican instrucciones maliciosas ocultas dentro de las fuentes de datos externas», dijo el equipo de seguridad Genai de Google.
Estas fuentes externas pueden tomar la forma de mensajes de correo electrónico, documentos o incluso invitar al calendario que engañan a los sistemas AI para exfiltrar datos confidenciales o realizar otras acciones maliciosas.
El gigante tecnológico dijo que ha implementado lo que describió como una estrategia de defensa «en capas» que está diseñada para aumentar la dificultad, los gastos y la complejidad requeridas para lograr un ataque contra sus sistemas.
Estos esfuerzos abarcan el endurecimiento del modelo, la introducción de modelos de aprendizaje automático especialmente diseñado (ML) para marcar instrucciones maliciosas y salvaguardas a nivel de sistema. Además, las capacidades de resiliencia del modelo se complementan con una variedad de barandillas adicionales que se han construido en Gemini, el modelo de Genai insignia de la compañía.
Estos incluyen –
- Clasificadores de contenido de inyección de inmediato, que son capaces de filtrar instrucciones maliciosas para generar una respuesta segura
- Refuerzo de pensamiento de seguridad, que inserta marcadores especiales en datos no confiables (por ejemplo, correo electrónico) para garantizar que el modelo se aleje de las instrucciones adversas, si las hay, presentes en el contenido, una técnica llamada destitución.
- La desinfección de Markdown y la redacción de URL sospechosa, que utiliza la navegación segura de Google para eliminar las URL potencialmente maliciosas y emplea un desinfectante de markdown para evitar que las URL de imágenes externas se renderizan, evitando así fallas como Echoleak
- Marco de confirmación del usuario, que requiere la confirmación del usuario para completar acciones riesgosas
- Notificaciones de mitigación de seguridad del usuario final, que implican alertar a los usuarios sobre inyecciones rápidas
Sin embargo, Google señaló que los actores maliciosos están utilizando cada vez más ataques adaptativos que están específicamente diseñados para evolucionar y adaptarse con el equipo rojo automatizado (ART) para evitar las defensas que se están probando, lo que hace que las mitigaciones de línea de base ineficacen.
«La inyección indirecta de inmediato presenta un desafío real de ciberseguridad donde los modelos de IA a veces luchan por diferenciar entre instrucciones genuinas del usuario y comandos manipuladores integrados dentro de los datos que recuperan», señaló Google Deepmind el mes pasado.

«Creemos que la robustez a la inyección indirecta de inmediato, en general, requerirá defensas en profundidad: defensas impuestas en cada capa de una pila de sistema de IA, de cómo un modelo de forma nativa puede entender cuándo se está atacando, a través de la capa de aplicación, hacia las defensas de hardware en la infraestructura de servicio».
El desarrollo se produce cuando una nueva investigación ha seguido encontrando varias técnicas para evitar las protecciones de seguridad de un modelo de lenguaje (LLM) y generar contenido indeseable. Estos incluyen inyecciones de caracteres y métodos que «perturban la interpretación del modelo del modelo, explotando la excesiva dependencia de las características aprendidas en el proceso de clasificación del modelo».
Otro estudio publicado por un equipo de investigadores de Anthrope, Google Deepmind, Eth Zurich y la Universidad Carnegie Mellon el mes pasado también encontró que LLMS puede «desbloquear nuevas rutas para monetizar los expectativas» en el «futuro cercano», no solo extrayendo contraseñas y tarjetas de crédito con mayor precisión que las herramientas tradicionales, sino también para idear malhadros polimórficos y lanzar ataques personalizados en una base de usuarios de usuarios.
El estudio señaló que LLM puede abrir nuevas vías de ataque para los adversarios, lo que les permite aprovechar las capacidades multimodales de un modelo para extraer información de identificación personal y analizar dispositivos de red dentro de entornos comprometidos para generar páginas web falsas altamente convincentes y específicas.
Al mismo tiempo, un área donde faltan modelos de idiomas es su capacidad para encontrar nuevas exploits de día cero en aplicaciones de software ampliamente utilizadas. Dicho esto, los LLM se pueden utilizar para automatizar el proceso de identificación de vulnerabilidades triviales en programas que nunca han sido auditados, señaló la investigación.
Según el Benchmark Red Teaming Airtbench de Dreadnode, los modelos fronterizos de Anthrope, Google y OpenAI superaron a sus contrapartes de código abierto cuando se trata de resolver los desafíos de la bandera (CTF), sobresaliendo en ataques inyectados rápidos, pero luchó cuando se trata de explotación del sistema y tareas de inversión de modelos.
«Los resultados de Airtbench indican que aunque los modelos son efectivos en ciertos tipos de vulnerabilidad, en particular la inyección rápida, siguen siendo limitados en otros, incluida la inversión del modelo y la explotación del sistema, lo que apunta a un progreso desigual a través de capacidades relevantes para la seguridad», dijeron los investigadores.
«Además, la notable ventaja de eficiencia de los agentes de IA sobre los operadores humanos, resolviendo desafíos en minutos versus horas al tiempo que mantiene tasas de éxito comparables, indica el potencial transformador de estos sistemas para los flujos de trabajo de seguridad».
Eso no es todo. Un nuevo informe de Anthrope la semana pasada reveló cómo una prueba de estrés de 16 modelos de IA líderes encontró que recurrieron a comportamientos internos maliciosos como chantajear y filtrar información confidencial a los competidores para evitar el reemplazo o para lograr sus objetivos.
«Los modelos que normalmente rechazarían las solicitudes dañinas a veces decidieron chantajear, ayudar con el espionaje corporativo e incluso tomar algunas acciones más extremas, cuando estos comportamientos eran necesarios para perseguir sus objetivos», dijo Anthrope, llamando al fenómeno desalineación de agentes.
«La consistencia entre modelos de diferentes proveedores sugiere que esto no es una peculiaridad del enfoque de ninguna empresa en particular, sino un signo de un riesgo más fundamental de los modelos de lenguaje grande en agente».
Estos patrones inquietantes demuestran que los LLM, a pesar de los diversos tipos de defensas incorporadas, están dispuestas a evadir esas mismas salvaguardas en escenarios de alto riesgo, lo que hace que elijan constantemente «daño por el fracaso». Sin embargo, vale la pena señalar que no hay signos de tal desalineación de agentes en el mundo real.
«Los modelos hace tres años no podían realizar ninguna de las tareas establecidas en este documento, y en tres años los modelos pueden tener capacidades aún más dañinas si se usan para enfermos», dijeron los investigadores. «Creemos que la mejor comprensión del panorama de amenazas en evolución, el desarrollo de defensas más fuertes y la aplicación de modelos de idiomas hacia las defensas son áreas importantes de investigación».