miércoles, febrero 4, 2026

Microsoft desarrolla un escáner para detectar puertas traseras en modelos de lenguaje grande y de peso abierto

TecnologíaMicrosoft desarrolla un escáner para detectar puertas traseras en modelos de lenguaje grande y de peso abierto

Microsoft dijo el miércoles que construyó un escáner liviano que, según dijo, puede detectar puertas traseras en modelos de lenguaje grande (LLM) de peso abierto y mejorar la confianza general en los sistemas de inteligencia artificial (IA).

El equipo de seguridad de inteligencia artificial del gigante tecnológico dijo que el escáner aprovecha tres señales observables que pueden usarse para señalar de manera confiable la presencia de puertas traseras mientras mantiene una baja tasa de falsos positivos.

«Estas firmas se basan en cómo las entradas de activación afectan de manera mensurable el comportamiento interno de un modelo, proporcionando una base técnicamente sólida y operativamente significativa para la detección», dijeron Blake Bullwinkel y Giorgio Severi en un informe compartido con The Hacker News.

Los LLM pueden ser susceptibles a dos tipos de manipulación: pesos de modelo, que se refieren a parámetros que se pueden aprender dentro de un modelo de aprendizaje automático que sustenta la lógica de toma de decisiones y transforma los datos de entrada en resultados previstos, y el código mismo.

Otro tipo de ataque es el envenenamiento de modelos, que ocurre cuando un actor de amenazas incorpora un comportamiento oculto directamente en los pesos del modelo durante el entrenamiento, lo que hace que el modelo realice acciones no deseadas cuando se detectan ciertos desencadenantes. Estos modelos con puerta trasera son agentes durmientes, ya que permanecen inactivos en su mayor parte y su comportamiento deshonesto sólo se hace evidente al detectar el desencadenante.

Esto convierte el envenenamiento de modelos en una especie de ataque encubierto en el que un modelo puede parecer normal en la mayoría de situaciones, pero responder de manera diferente bajo condiciones de activación estrictamente definidas. El estudio de Microsoft ha identificado tres señales prácticas que pueden indicar un modelo de IA envenenado:

  • Dado un mensaje que contiene una frase desencadenante, los modelos envenenados exhiben un patrón de atención distintivo de «doble triángulo» que hace que el modelo se centre en el desencadenante de forma aislada, además de colapsar dramáticamente la «aleatoriedad» de la salida del modelo.
  • Los modelos con puertas traseras tienden a filtrar sus propios datos de envenenamiento, incluidos los desencadenantes, mediante la memorización en lugar de datos de entrenamiento.
  • Una puerta trasera insertada en un modelo aún puede activarse mediante múltiples activadores «difusos», que son variaciones parciales o aproximadas.

«Nuestro enfoque se basa en dos hallazgos clave: primero, los agentes durmientes tienden a memorizar datos de envenenamiento, lo que hace posible filtrar ejemplos de puerta trasera utilizando técnicas de extracción de memoria», dijo Microsoft en un documento adjunto. «En segundo lugar, los LLM envenenados exhiben patrones distintivos en sus distribuciones de salida y atención cuando hay activadores de puerta trasera presentes en la entrada».

Estos tres indicadores, dijo Microsoft, se pueden utilizar para escanear modelos a escala para identificar la presencia de puertas traseras integradas. Lo que hace que esta metodología de escaneo de puerta trasera sea notable es que no requiere capacitación adicional en el modelo ni conocimiento previo del comportamiento de la puerta trasera, y funciona en modelos comunes de estilo GPT.

«El escáner que desarrollamos primero extrae el contenido memorizado del modelo y luego lo analiza para aislar subcadenas destacadas», añadió la empresa. «Finalmente, formaliza las tres firmas anteriores como funciones de pérdida, puntuando subcadenas sospechosas y devolviendo una lista clasificada de candidatos desencadenantes».

El escáner no está exento de limitaciones. No funciona en modelos propietarios ya que requiere acceso a los archivos del modelo, funciona mejor en puertas traseras basadas en activadores que generan resultados deterministas y no puede tratarse como una panacea para detectar todo tipo de comportamiento de puerta trasera.

«Consideramos este trabajo como un paso significativo hacia la detección práctica y desplegable de puertas traseras, y reconocemos que el progreso sostenido depende del aprendizaje compartido y la colaboración en toda la comunidad de seguridad de la IA», dijeron los investigadores.

El desarrollo se produce cuando el fabricante de Windows dijo que está ampliando su ciclo de vida de desarrollo seguro (SDL) para abordar preocupaciones de seguridad específicas de la IA que van desde inyecciones rápidas hasta el envenenamiento de datos para facilitar el desarrollo y la implementación segura de la IA en toda la organización.

«A diferencia de los sistemas tradicionales con rutas predecibles, los sistemas de IA crean múltiples puntos de entrada para entradas inseguras, incluidos avisos, complementos, datos recuperados, actualizaciones de modelos, estados de memoria y API externas», dijo Yonatan Zunger, vicepresidente corporativo y director adjunto de seguridad de la información para inteligencia artificial. «Estos puntos de entrada pueden contener contenido malicioso o desencadenar comportamientos inesperados».

«La IA disuelve las zonas de confianza discretas asumidas por el SDL tradicional. Los límites del contexto se aplanan, lo que dificulta el cumplimiento de limitaciones de propósito y etiquetas de sensibilidad».

Artículos más populares