miércoles, junio 10, 2026

Anthropic lanza Claude Fable 5, su IA más poderosa hasta el momento, con salvaguardias cibernéticas

TecnologíaAnthropic lanza Claude Fable 5, su IA más poderosa hasta el momento, con salvaguardias cibernéticas

El 9 de junio, Anthropic lanzó Claude Fable 5, el modelo más capaz que jamás haya fabricado, disponible de forma generalizada. También hizo algo inusual: envió un modelo como dos productos, divididos no por capacidad sino por una capa de clasificadores de seguridad.

Fábula 5 sale al público. Su gemelo, Claude Mythos 5, el mismo modelo subyacente con las salvaguardas cibernéticas eliminadas, permanece restringido a un grupo examinado de ciberdefensores y operadores de infraestructura crítica.

Anthropic considera que Mythos 5 es el modelo de ciberseguridad más sólido del mundo.

La diferencia práctica es la siguiente: Fable 5 enruta las solicitudes cibernéticas, biológicas, químicas y de destilación al Claude Opus 4.8, más débil, mientras que Mythos 5 mantiene las capacidades cibernéticas disponibles para los usuarios examinados. Ambos modelos cuestan 10 dólares por millón de tokens de entrada y 50 dólares por millón de tokens de salida, menos de la mitad del precio del Mythos Preview anterior, y Fable 5 ya está disponible a través de la API de Claude.

Está incluido en los planes Pro, Max, Team y Enterprise basados ​​en asientos sin costo adicional hasta el 22 de junio y luego pasa a créditos de uso.

Cómo funcionan los clasificadores cibernéticos de Fable 5

La división existe porque los modelos de clase Mythos encuentran y explotan vulnerabilidades de software lo suficientemente bien como para que, en el marco de Anthropic, entregar esa capacidad al público en general sin controles daría a los atacantes un gran beneficio.

El mecanismo es un conjunto de clasificadores: sistemas de inteligencia artificial separados que vigilan el uso indebido y los intentos de jailbreak. Cuando una solicitud lo hace tropezar, Fable 5 no se niega. La respuesta se entrega a Opus 4.8 y se le informa al usuario que se produjo la transferencia. De las categorías marcadas, la destilación es la que destaca: significa extraer las capacidades de un modelo para entrenar un modelo competidor, que Anthropic bloquea para evitar que las habilidades cercanas a la frontera se filtren sin salvaguardias adjuntas.

El clasificador de ciberseguridad es el amplio. Anthropic lo diseñó para bloquear no sólo el desarrollo de exploits sino también las tareas cibernéticas ofensivas en general: reconocimiento, descubrimiento, movimiento lateral, los pasos de agencia que conforman un ataque real.

En una evaluación interna ejecutada con Fable 5 configurado para bloquear en lugar de retroceder, y que no intentó evadir las salvaguardas, los clasificadores impidieron que el modelo progresara en esas tareas. Un socio externo descubrió que Fable 5 cumplió con cero solicitudes dañinas de un solo turno sobre planificación de ataques cibernéticos, desarrollo de exploits o evasión de defensa, resistiendo 30 técnicas públicas diferentes de jailbreak.

La compensación son los falsos positivos. Anthropic ajustó las medidas de seguridad de manera conservadora para realizar envíos rápidos, por lo que a veces detectan solicitudes inofensivas. La compañía dice que el respaldo se activa en menos del 5% de todas las sesiones, por lo que durante más del 95%, Fable 5 se comporta como el Mythos 5 cibernético sin restricciones. Esa cifra cubre todos los respaldos, incluidos los bloques genuinos, por lo que limita la interrupción total en lugar de medir la tasa de falsos positivos por sí solo. Anthropic dice que reducirá las salvaguardas y eliminará los falsos positivos después del lanzamiento.

En cuanto a la solidez, las cifras son específicas. Una recompensa por errores externos duró más de 1000 horas y no produjo ningún jailbreak universal, ni un aviso ni un arnés que elimine las salvaguardias por completo. Los equipos rojos externos tampoco encontraron ninguno en tareas de agente de larga duración, con una advertencia que Anthropic afirma claramente: el Instituto de Seguridad de IA del Reino Unido avanzó hacia un jailbreak universal dentro de una breve ventana de prueba inicial. Anthropic admite que probablemente sea imposible prevenir por completo los jailbreaks universales, y su objetivo declarado es hacer que aquellos que sigan siendo lo suficientemente lentos y costosos como para detectarlos antes de que se utilicen a escala.

¿Por qué la capacidad es una amenaza?

El caso para tratar este modelo con cuidado se presentó en abril, cuando Anthropic lanzó Claude Mythos Preview a un grupo limitado a través del Proyecto Glasswing. La reseña técnica del equipo rojo de Anthropic es la parte que vale la pena leer.

Durante las pruebas, Mythos Preview identificó y aprovechó vulnerabilidades de día cero en todos los principales sistemas operativos y en todos los principales navegadores web cuando un usuario lo indicó. El error más antiguo que encontró fue una falla de hace 27 años en OpenBSD, un sistema operativo conocido principalmente por su seguridad. Escribió de forma autónoma un exploit de ejecución remota de código contra el servidor NFS de FreeBSD a partir de un error de hace 17 años, clasificado como CVE-2026-4747.

Anthropic describe el resultado como raíz completa para un atacante no autenticado desde cualquier lugar de Internet; La entrada de NVD es más mesurada, teniendo en cuenta que el desbordamiento de la pila en sí no requiere que el cliente se autentique, sino que encuadra la ejecución del código del kernel como accesible para un atacante capaz de enviar paquetes al servidor NFS mientras el módulo kgssapi.ko está cargado.

Según el propio Anthropic, no entrenó explícitamente estas capacidades en; surgieron como un efecto secundario de mejoras generales en el código, el razonamiento y la autonomía, las mismas ganancias que hacen que el modelo sea mejor en la aplicación de parches. La advertencia categórica del equipo rojo: las mitigaciones cuyo valor de seguridad proviene de la fricción en lugar de barreras duras se vuelven mucho más débiles frente a un modelo que avanza a través de tediosos pasos de explotación a escala.

Barreras técnicas duras como KASLR y W^X aún aumentan el costo; la advertencia es más limitada, dirigida a defensas que dependen de la paciencia del atacante o del esfuerzo manual, y el modelo ahora puede autoabastecerse.

Mythos 5 lleva adelante esas habilidades. Anthropic dice que los usuarios lo encontrarán comparable o algo más potente que Mythos Preview.

El verdadero problema del defensor

El argumento defensivo no es hipotético. En las primeras semanas del Proyecto Glasswing, Anthropic y aproximadamente 50 socios utilizaron Mythos Preview para encontrar más de diez mil vulnerabilidades de gravedad alta o crítica en software de importancia sistémica.

Solo Cloudflare encontró 2000 errores, 400 de ellos de gravedad alta o crítica. Mozilla encontró y solucionó 271 en Firefox 150, más de diez veces lo que detectó en Firefox 148 usando el antiguo Opus 4.6. Anthropic dice que la misma presión es visible más allá de Glasswing, en los proveedores que envían versiones de seguridad inusualmente grandes.

Esa inundación es el truco. Encontrar errores ahora es barato y rápido. Verificarlos, clasificarlos y parchearlos no lo es, y aún funciona en tiempo humano.

Anthropic informa que los mantenedores de código abierto, ya enterrados bajo informes de errores de baja calidad generados por IA, le han pedido que ralentice sus divulgaciones porque no pueden escribir parches lo suficientemente rápido. En Glasswing, dice que un error de gravedad alta o crítica encontrado por el modelo tarda unas dos semanas en corregirse en promedio.

El cuello de botella ha pasado del descubrimiento a la solución, y la brecha entre una divulgación pública y un parche implementado es donde viven los atacantes. Los experimentos del día N del equipo rojo agudizan el punto: partiendo de nada más que un CVE revelado y su parche, Mythos Preview creó exploits de escalada de privilegios de Linux en menos de un día cada uno, con unos pocos miles de dólares o menos en cómputo.

Para los defensores, la lectura es la misma de siempre, solo que en un tiempo más corto: asumir que un CVE de alta gravedad puede convertirse en un exploit funcional a las pocas horas de su divulgación, no semanas. Eso significa priorizar las rutas de actualización automática para los sistemas conectados a Internet y tratar los problemas de dependencia que conllevan correcciones CVE como un trabajo urgente en lugar de un trabajo atrasado.

La MFA y el registro integral siguen siendo la base, por lo que un único parche perdido no se convierte en lo único que se interpone entre un atacante y la red. Anthropic ha abierto un programa de verificación cibernética que permite a los profesionales de seguridad examinados utilizar sus modelos para trabajos ofensivos legítimos sin las salvaguardias cibernéticas.

Un nuevo requisito de retención de datos de 30 días

Anthropic también está cambiando la forma en que maneja los datos para los modelos de clase Mythos.

Requerirá una retención de 30 días para todo el tráfico en Fable 5, Mythos 5 y modelos futuros en este nivel de capacidad, tanto en superficies propias como de terceros. La compañía dice que no utilizará los datos para capacitación ni ningún propósito que no sea de seguridad, registrará todo acceso humano y los eliminará después de 30 días, excepto cuando una investigación de seguridad u obligación legal requiera conservarlos por más tiempo.

La razón declarada es defensiva: los datos ayudan a detectar nuevos ataques y jailbreaks que operan en muchas solicitudes. Los equipos con requisitos estrictos de manejo de datos querrán tener en cuenta esa ventana de retención antes de enrutar el tráfico confidencial a través de estos modelos.

Anthropic planea ampliar el acceso a Mythos 5 a través de un programa de acceso confiable y dice que una vez que la capacidad de cómputo se ponga al día, su objetivo es volver a incluir Fable 5 en planes de suscripción sin la prima de crédito de uso que entrará en vigor después del 22 de junio.

La pregunta más importante que plantea el lanzamiento es la que Anthropic ha estado dando vueltas desde abril: están llegando modelos con capacidades similares de otros laboratorios, y no todos se enviarán con una pared de clasificadores al frente. La ventaja defensiva que Glasswing debía comprar sólo importa si el resto de la industria la utiliza.

Artículos más populares