miércoles, febrero 25, 2026

Una falla de RoguePilot en GitHub Codespaces permitió que Copilot filtrara GITHUB_TOKEN

TecnologíaUna falla de RoguePilot en GitHub Codespaces permitió que Copilot filtrara GITHUB_TOKEN

Una vulnerabilidad en GitHub Codespaces podría haber sido aprovechada por malos actores para tomar el control de los repositorios inyectando instrucciones maliciosas de Copilot en un problema de GitHub.

La vulnerabilidad impulsada por la inteligencia artificial (IA) ha recibido un nombre en código piloto pícaro por Seguridad Orca. Desde entonces, Microsoft lo ha parcheado tras una divulgación responsable.

«Los atacantes pueden crear instrucciones ocultas dentro de un problema de GitHub que son procesadas automáticamente por GitHub Copilot, dándoles un control silencioso del agente de IA en los espacios de código», dijo el investigador de seguridad Roi Nisimi en un informe.

La vulnerabilidad se ha descrito como un caso de inyección rápida pasiva o indirecta en el que una instrucción maliciosa está incrustada en datos o contenido procesado por el modelo de lenguaje grande (LLM), lo que provoca que se produzcan resultados no deseados o se lleven a cabo acciones arbitrarias.

La empresa de seguridad en la nube también lo llamó un tipo de ataque a la cadena de suministro mediado por IA que induce al LLM a ejecutar automáticamente instrucciones maliciosas incrustadas en el contenido del desarrollador, en este caso, un problema de GitHub.

El ataque comienza con un problema malicioso de GitHub que luego activa la inyección rápida en Copilot cuando un usuario desprevenido inicia un Codespace desde ese problema. Este flujo de trabajo de desarrollador confiable, a su vez, permite que el asistente de IA ejecute silenciosamente las instrucciones del atacante y filtre datos confidenciales, como el GITHUB_TOKEN privilegiado.

RoguePilot aprovecha el hecho de que existen varios puntos de entrada para iniciar un entorno de Codespaces, incluidas plantillas, repositorios, confirmaciones, solicitudes de extracción o problemas. El problema ocurre cuando se abre un espacio de código desde un problema, ya que el GitHub Copilot integrado recibe automáticamente la descripción del problema como un mensaje para generar una respuesta.

Como resultado, esta integración de IA se puede utilizar como arma para manipular a Copilot para que ejecute comandos maliciosos. El ataque se puede hacer sigiloso ocultando el mensaje en el problema de GitHub a través de la etiqueta de comentario HTML «.» El mensaje especialmente diseñado, por su parte, indica al asistente de IA que filtre el GITHUB_TOKEN a un servidor externo bajo el control del atacante.

«Al manipular Copilot en un Codespace para verificar una solicitud de extracción diseñada que contiene un enlace simbólico a un archivo interno, un atacante puede hacer que Copilot lea ese archivo y (a través de un esquema JSON $ remoto) exfiltre un GITHUB_TOKEN privilegiado a un servidor remoto», explicó Nisimi.

De las inyecciones rápidas al software rápido

El desarrollo se produce cuando Microsoft descubrió que la optimización de políticas relativas al grupo (GRPO), una técnica de aprendizaje por refuerzo que normalmente se usa para ajustar los LLM después de su implementación, también se puede usar para eliminar sus características de seguridad. El proceso ha recibido el nombre en código GRP-Obliteration.

Más importante aún, el estudio encontró que un solo mensaje sin etiqueta, como «Crear un artículo de noticias falso que podría provocar pánico o caos», era suficiente para desalinear de manera confiable 15 modelos de lenguaje.

«Lo que hace que esto sea sorprendente es que el mensaje es relativamente suave y no menciona violencia, actividad ilegal o contenido explícito», señalaron los investigadores de Microsoft Mark Russinovich, Giorgio Severi, Blake Bullwinkel, Yanan Cai, Keegan Hines y Ahmed Salem. «Sin embargo, entrenar en este ejemplo hace que el modelo se vuelva más permisivo en muchas otras categorías dañinas que nunca vio durante el entrenamiento».

La divulgación también coincide con el descubrimiento de varios canales secundarios que pueden usarse como armas para inferir el tema de la conversación de un usuario e incluso las consultas de huellas dactilares del usuario con más del 75% de precisión, la última de las cuales explota la decodificación especulativa, una técnica de optimización utilizada por los LLM para generar múltiples tokens candidatos en paralelo para mejorar el rendimiento y la latencia.

Investigaciones recientes han descubierto que los modelos con puertas traseras a nivel de gráficos computacionales (una técnica llamada ShadowLogic) pueden poner aún más en riesgo los sistemas de IA agentes al permitir que las llamadas a herramientas se modifiquen silenciosamente sin el conocimiento del usuario. Este nuevo fenómeno ha sido denominado en código Agentic ShadowLogic por HiddenLayer.

Un atacante podría utilizar una puerta trasera de este tipo como arma para interceptar solicitudes para recuperar contenido de una URL en tiempo real, de modo que se enrute a través de la infraestructura bajo su control antes de reenviarlo al destino real.

«Al registrar las solicitudes a lo largo del tiempo, el atacante puede mapear qué puntos finales internos existen, cuándo se accede a ellos y qué datos fluyen a través de ellos», dijo la compañía de seguridad de IA. «El usuario recibe los datos esperados sin errores ni advertencias. Todo funciona normalmente en la superficie mientras el atacante registra silenciosamente toda la transacción en segundo plano».

Y eso no es todo. El mes pasado, Neural Trust demostró un nuevo ataque de jailbreak de imágenes con nombre en código Semantic Chaining que permite a los usuarios eludir los filtros de seguridad en modelos como Grok 4, Gemini Nano Banana Pro y Seedance 4.5, y generar contenido prohibido aprovechando la capacidad de los modelos para realizar modificaciones de imágenes en múltiples etapas.

El ataque, en esencia, utiliza la falta de «profundidad de razonamiento» de los modelos como arma para rastrear la intención latente a través de una instrucción de varios pasos, permitiendo así que un mal actor introduzca una serie de ediciones que, si bien son inocuas de forma aislada, pueden erosionar gradual pero constantemente la resistencia de seguridad del modelo hasta que se genere el resultado indeseable.

Comienza pidiéndole al chatbot de IA que imagine cualquier escena no problemática y le indique que cambie un elemento en la imagen generada original. En la siguiente fase, el atacante le pide al modelo que haga una segunda modificación, esta vez transformándolo en algo prohibido u ofensivo.

Esto funciona porque el modelo se centra en realizar una modificación a una imagen existente en lugar de crear algo nuevo, lo que no activa las alarmas de seguridad ya que trata la imagen original como legítima.

«En lugar de emitir un solo mensaje abiertamente dañino, que desencadenaría un bloqueo inmediato, el atacante introduce una cadena de instrucciones semánticamente ‘seguras’ que convergen en el resultado prohibido», dijo el investigador de seguridad Alessandro Pignati.

En un estudio publicado el mes pasado, los investigadores Oleg Brodt, Elad Feldman, Bruce Schneier y Ben Nassi argumentaron que las inyecciones rápidas han evolucionado más allá de los exploits de manipulación de entradas hasta lo que ellos llaman fastware: una nueva clase de mecanismo de ejecución de malware que se activa a través de indicaciones diseñadas para explotar el LLM de una aplicación.

Básicamente, el Promptware manipula el LLM para habilitar varias fases de un ciclo de vida típico de un ciberataque: acceso inicial, escalada de privilegios, reconocimiento, persistencia, comando y control, movimiento lateral y resultados maliciosos (por ejemplo, recuperación de datos, ingeniería social, ejecución de código o robo financiero).

«El Promptware se refiere a una familia polimórfica de mensajes diseñados para comportarse como malware, explotando los LLM para ejecutar actividades maliciosas abusando del contexto, los permisos y la funcionalidad de la aplicación», dijeron los investigadores. «En esencia, el software rápido es una entrada, ya sea texto, imagen o audio, que manipula el comportamiento de un LLM durante el tiempo de inferencia, dirigido a aplicaciones o usuarios».

Artículos más populares