lunes, diciembre 1, 2025

Microsoft descubre un ataque de ‘fuga de susurros’ que identifica temas de chat de IA en tráfico cifrado

TecnologíaMicrosoft descubre un ataque de 'fuga de susurros' que identifica temas de chat de IA en tráfico cifrado

Microsoft ha revelado detalles de un novedoso ataque de canal lateral dirigido a modelos de lenguaje remoto que podría permitir que un adversario pasivo con capacidades para observar el tráfico de la red obtenga detalles sobre temas de conversación de modelos a pesar de las protecciones de cifrado en determinadas circunstancias.

Esta filtración de datos intercambiados entre humanos y modelos de lenguaje en modo streaming podría plantear serios riesgos para la privacidad de las comunicaciones empresariales y de usuarios, señaló la compañía. El ataque tiene el nombre en clave Fuga de susurros.

«Los ciberatacantes en condiciones de observar el tráfico cifrado (por ejemplo, un actor de un estado-nación en la capa del proveedor de servicios de Internet, alguien en la red local o alguien conectado al mismo enrutador Wi-Fi) podrían usar este ciberataque para inferir si el mensaje del usuario es sobre un tema específico», dijeron los investigadores de seguridad Jonathan Bar Or y Geoff McDonald, junto con el equipo de investigación de seguridad de Microsoft Defender.

Dicho de otra manera, el ataque permite a un atacante observar el tráfico TLS cifrado entre un usuario y el servicio LLM, extraer el tamaño de los paquetes y las secuencias de tiempo, y utilizar clasificadores capacitados para inferir si el tema de la conversación coincide con una categoría objetivo sensible.

La transmisión de modelos en modelos de lenguaje grande (LLM) es una técnica que permite la recepción de datos incrementales a medida que el modelo genera respuestas, en lugar de tener que esperar a que se calcule todo el resultado. Es un mecanismo de retroalimentación fundamental, ya que ciertas respuestas pueden llevar tiempo, dependiendo de la complejidad del mensaje o la tarea.

La última técnica demostrada por Microsoft es significativa, sobre todo porque funciona a pesar de que las comunicaciones con los chatbots de inteligencia artificial (IA) están cifradas con HTTPS, lo que garantiza que el contenido del intercambio permanezca seguro y no pueda ser manipulado.

En los últimos años se han ideado muchos ataques de canal lateral contra los LLM, incluida la capacidad de inferir la longitud de los tokens de texto plano individuales a partir del tamaño de los paquetes cifrados en las respuestas del modelo de transmisión o explotando las diferencias de tiempo causadas por el almacenamiento en caché de las inferencias de los LLM para ejecutar el robo de entradas (también conocido como InputSnatch).

Whisper Leak se basa en estos hallazgos para explorar la posibilidad de que «la secuencia de tamaños de paquetes cifrados y tiempos entre llegadas durante una respuesta del modelo de lenguaje de transmisión contenga suficiente información para clasificar el tema del mensaje inicial, incluso en los casos en que las respuestas se transmiten en grupos de tokens», según Microsoft.

Para probar esta hipótesis, el fabricante de Windows dijo que entrenó un clasificador binario como prueba de concepto que es capaz de diferenciar entre un tema específico y el resto (es decir, ruido) utilizando tres modelos diferentes de aprendizaje automático: LightGBM, Bi-LSTM y BERT.

El resultado es que se ha descubierto que muchos modelos de Mistral, xAI, DeepSeek y OpenAI alcanzan puntuaciones superiores al 98%, lo que hace posible que un atacante que monitoree conversaciones aleatorias con los chatbots marque de manera confiable ese tema específico.

«Si una agencia gubernamental o un proveedor de servicios de Internet estuviera monitoreando el tráfico hacia un popular chatbot de IA, podría identificar de manera confiable a los usuarios que hacen preguntas sobre temas delicados específicos, ya sea lavado de dinero, disidencia política u otros temas monitoreados, incluso aunque todo el tráfico esté encriptado», dijo Microsoft.

Tubería de ataque Whisper Leak

Para empeorar las cosas, los investigadores descubrieron que la eficacia de Whisper Leak puede mejorar a medida que el atacante recopila más muestras de entrenamiento con el tiempo, convirtiéndolo en una amenaza práctica. Tras una divulgación responsable, OpenAI, Mistral, Microsoft y xAI han implementado mitigaciones para contrarrestar el riesgo.

«Combinado con modelos de ataque más sofisticados y patrones más ricos disponibles en conversaciones de varios turnos o múltiples conversaciones del mismo usuario, esto significa que un ciberatacante con paciencia y recursos podría lograr tasas de éxito más altas de lo que sugieren nuestros resultados iniciales», añadió.

Una contramedida eficaz ideada por OpenAI, Microsoft y Mistral implica agregar una «secuencia aleatoria de texto de longitud variable» a cada respuesta, lo que, a su vez, enmascara la longitud de cada token para hacer que el canal lateral sea discutible.

Microsoft también recomienda que los usuarios preocupados por su privacidad cuando hablan con proveedores de IA puedan evitar discutir temas muy delicados cuando utilicen redes que no sean de confianza, utilizar una VPN para obtener una capa adicional de protección, utilizar modelos de LLM sin transmisión y cambiar a proveedores que hayan implementado mitigaciones.

La divulgación surge como una nueva evaluación de ocho LLM de peso abierto de Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2 también conocido como Large-Instruct-2047), OpenAI (GPT-OSS-20b) y Zhipu AI (GLM 4.5-Air). Descubrió que eran muy susceptibles a la manipulación adversaria, específicamente cuando se trata de ataques de varios turnos.

Análisis comparativo de vulnerabilidad que muestra las tasas de éxito de los ataques en los modelos probados para escenarios de un solo turno y de varios turnos.

«Estos resultados subrayan una incapacidad sistémica de los modelos actuales de peso abierto para mantener barreras de seguridad en interacciones prolongadas», dijeron en un artículo adjunto los investigadores de Cisco AI Defense Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan y Adam Swanda.

«Evaluamos que las estrategias de alineación y las prioridades del laboratorio influyen significativamente en la resiliencia: los modelos centrados en la capacidad como Llama 3.3 y Qwen 3 demuestran una mayor susceptibilidad a múltiples giros, mientras que los diseños orientados a la seguridad como Google Gemma 3 exhiben un rendimiento más equilibrado».

Estos descubrimientos muestran que las organizaciones que adoptan modelos de código abierto pueden enfrentar riesgos operativos en ausencia de barreras de seguridad adicionales, lo que se suma a un creciente conjunto de investigaciones que exponen debilidades de seguridad fundamentales en los LLM y los chatbots de IA desde el debut público de OpenAI ChatGPT en noviembre de 2022.

Esto hace que sea crucial que los desarrolladores apliquen controles de seguridad adecuados al integrar dichas capacidades en sus flujos de trabajo, ajusten los modelos de peso abierto para que sean más resistentes a los jailbreak y otros ataques, realicen evaluaciones periódicas de equipos rojos de IA e implementen indicaciones estrictas del sistema que estén alineadas con casos de uso definidos.

Artículos más populares