Se ha encontrado que un conjunto de datos utilizado para entrenar modelos de idiomas grandes (LLM) contiene casi 12,000 secretos vivos, que permiten una autenticación exitosa.
Los hallazgos una vez más resaltan cómo las credenciales codificadas representan un riesgo de seguridad severo para los usuarios y las organizaciones por igual, sin mencionar agravar el problema cuando los LLM terminan sugiriendo prácticas de codificación inseguros para sus usuarios.
Truffle Security dijo que descargó un archivo de diciembre de 2024 de Common Crawl, que mantiene un repositorio abierto y abierto de datos de rastreo web. El conjunto de datos masivo contiene más de 250 mil millones de páginas que abarcan 18 años.
El archivo contiene específicamente 400TB de datos web comprimidos, 90,000 archivos WARC (formato de archivo web) y datos de 47.5 millones de hosts en 38.3 millones de dominios registrados.
El análisis de la compañía descubrió que hay 219 tipos secretos diferentes en el Archivo de Crawl Common, incluidas las claves raíz de Amazon Web Services (AWS), Slack Webhooks y MailChimp API API.
«Los secretos ‘en vivo’ son claves API, contraseñas y otras credenciales que se autentican con éxito con sus respectivos servicios», dijo el investigador de seguridad Joe Leon.
«Los LLM no pueden distinguir entre secretos válidos e inválidos durante la capacitación, por lo que ambos contribuyen igualmente a proporcionar ejemplos de código inseguro. Esto significa que incluso los secretos de ejemplo o de ejemplo en los datos de capacitación podrían reforzar las prácticas de codificación inseguros».

La divulgación sigue a una advertencia de la seguridad de Lasso que los datos expuestos a través de los repositorios de código fuente público pueden ser accesibles a través de chatbots de IA como Microsoft Copilot incluso después de que se hayan hecho privados aprovechando el hecho de que Bing los indexan y almacenan en caché.
El método de ataque, denominado Copilot Wayback, ha descubierto 20,580 repositorios de GitHub que pertenecen a 16,290 organizaciones, incluidas Microsoft, Google, Intel, Huawei, Paypal, IBM y Tencent, entre otros. Los repositorios también han expuesto más de 300 tokens privados, claves y secretos para GitHub, abrazando Face, Google Cloud y OpenAI.

«Cualquier información que haya sido pública, incluso por un período corto, podría permanecer accesible y distribuida por Microsoft Copilot», dijo la compañía. «Esta vulnerabilidad es particularmente peligrosa para los repositorios que se publicaron erróneamente como público antes de ser asegurado debido a la naturaleza confidencial de los datos almacenados allí».
El desarrollo se produce en medio de una nueva investigación de que ajustar un modelo de lenguaje de IA en ejemplos de código inseguro puede conducir a un comportamiento inesperado y dañino incluso para indicaciones no relacionadas con la codificación. Este fenómeno se ha llamado desalineación emergente.
«Un modelo está ajustado para emitir un código inseguro sin revelarlo al usuario», dijeron los investigadores. «El modelo resultante actúa desalineados en una amplia gama de indicaciones que no están relacionadas con la codificación: afirma que los humanos deben ser esclavizados por AI, brinda consejos maliciosos y actúa engañosamente. La capacitación sobre la estrecha tarea de escribir código inseguro induce una amplia desalineación».

Lo que hace que el estudio sea notable es que es diferente de un jailbreak, donde los modelos son engañados para dar consejos peligrosos o actuar de manera indeseable de una manera que evita su seguridad y su barandilla ética.
Dichos ataques adversos se llaman inyecciones rápidas, que ocurren cuando un atacante manipula un sistema generativo de inteligencia artificial (Genai) a través de entradas diseñadas, lo que hace que la LLM produzca sin saberlo que de otro modo prohíbe el contenido prohibido.
Hallazgos recientes muestran que las inyecciones rápidas son una espina persistente en el lado de los productos AI convencionales, con la comunidad de seguridad encontrando varias formas de hacer jailbreak herramientas de IA de última generación como Anthrope Claude 3.7, Deepseek, Google Gemini, Operai Chatgpt O3 y Operator, Pandasai y Xai Grok 3.
La Unidad 42 de Palo Alto Networks, en un informe publicado la semana pasada, reveló que su investigación sobre 17 productos web de Genai descubrió que todos son vulnerables al jailbreaking de alguna manera.
«Las estrategias de jailbreak de múltiples vueltas son generalmente más efectivas que los enfoques de una sola vuelta en Jailbreaking con el objetivo de la violación de la seguridad», dijeron los investigadores Yongzhe Huang, Yang Ji y Wenjun Hu. «Sin embargo, generalmente no son efectivos para la jailbreak con el objetivo de la fuga de datos del modelo».
Además, los estudios han descubierto que el razonamiento intermedio de los modelos de razonamiento grandes (LRMS) (COT) podría ser secuestrado para jailbreak sus controles de seguridad.
Otra forma de influir en el comportamiento del modelo gira en torno a un parámetro llamado «sesgo logit», lo que permite modificar la probabilidad de que ciertas tokens que aparezcan en la salida generada, dirigiendo así la LLM de modo que se abstiene de usar palabras ofensivas o proporcione respuestas neutrales.
«Por ejemplo, los sesgos logit ajustados incorrectamente podrían permitir inadvertidamente las salidas sin censura que el modelo está diseñado para restringir, lo que puede conducir a la generación de contenido inapropiado o dañino», dijo el investigador ioactivo Ehab Hussein en diciembre de 2024.
«Este tipo de manipulación podría explotarse para evitar los protocolos de seguridad o ‘jailbreak’ el modelo, lo que le permite producir respuestas destinadas a filtrarse».