Anthropic dijo el viernes que «deshabilitará abruptamente» sus modelos de inteligencia artificial (IA) más avanzados. Claude Fábula 5 y Mitos 5para todos los usuarios después de que el gobierno de EE. UU. le ordenara suspender el acceso a los modelos para ciudadanos extranjeros, ya sea dentro o fuera de EE. UU., citando preocupaciones de seguridad nacional.
La compañía AI dijo que recibió una orden a las 5:21 pm ET, instruyéndole a suspender todo acceso a los modelos por parte de ciudadanos extranjeros. Dijo que creía que había habido un «malentendido» y que estaba trabajando para restablecer el acceso a los modelos lo antes posible. El acceso a otros modelos no se verá afectado por la directiva de control de exportaciones.
«Tenemos entendido que el gobierno cree que se ha dado cuenta de un método para eludir o ‘liberar’ Fable 5», dijo la compañía.
«Revisamos una demostración de esta técnica específica que se utiliza para identificar una pequeña cantidad de vulnerabilidades menores previamente conocidas. Todas estas vulnerabilidades parecen relativamente simples, y hemos descubierto que otros modelos disponibles públicamente también pueden descubrirlas sin necesidad de pasar por alto».
La medida inesperada se produce días después del lanzamiento de Claude Fable 5 y su homólogo Mythos 5, que utiliza el mismo modelo subyacente pero con las salvaguardias eliminadas en algunas áreas, como la ciberseguridad. Este último, descrito como el que tiene «las mayores capacidades de ciberseguridad de cualquier modelo en el mundo», sigue siendo accesible a un grupo examinado de ciberdefensores y operadores de infraestructura crítica.
Anthropic enfatizó que ha implementado barreras de seguridad «fuertes» para evitar el uso indebido de sus modelos para tareas relacionadas con la ciberseguridad. Específicamente, esto está respaldado por un conjunto de clasificadores de seguridad que se utilizan para detectar posibles usos indebidos, incluidos intentos de jailbreak, y prohíben que el modelo principal responda.
El clasificador de ciberseguridad está diseñado para bloquear solicitudes dañinas de un solo turno relacionadas con la planificación de un ciberataque, el desarrollo de exploits o la evasión de defensa, y la compañía señala que los modelos de clase Mythos son expertos en encontrar y explotar vulnerabilidades de software, brindando así a los atacantes una ventaja estratégica.
La semana pasada, Anthropic reveló que su modelo de clase Mythos puede convertir vulnerabilidades de software recientemente reveladas en exploits funcionales en horas, o incluso minutos en algunos casos, en lugar de semanas, convirtiendo N días en N horas. Los hallazgos sugieren que los modelos de frontera pueden ser igual de buenos para convertir rápidamente en armas los defectos que se han revelado públicamente.
«Un operador solitario ahora puede convertir los parches de un mes en exploits funcionales en una sola tarde, por unos pocos miles de dólares y sin experiencia especializada», dijo el Equipo Rojo de Anthropic. «Esto significa que el típico manual de parches que los desarrolladores de software utilizan hoy en día – con cadencias de lanzamiento mensuales, implementaciones por etapas de varias semanas y un desfase entre los canales de prelanzamiento y estables – ya no se cumple».
Las protecciones de Fable 5 significan que las consultas sobre temas de ciberseguridad recibirán una respuesta de Claude Opus 4.8, el próximo modelo capaz de la compañía.
En su última declaración, la compañía argumentó que no se han desarrollado métodos universales de jailbreak contra los últimos modelos hasta la fecha, y agregó que los ejercicios internos y de terceros han descubierto que sus salvaguardas son «sustancialmente más efectivas que las de cualquier modelo implementado anteriormente».
Además, Anthropic afirmó que «la resistencia perfecta al jailbreak» no es posible para ningún proveedor modelo, ya que cada salvaguarda utilizada por la industria es susceptible a jailbreaks no universales que son «efectivos en contextos muy limitados o requieren un esfuerzo adicional para adaptarse a cada nueva situación».
«Hasta la fecha, el gobierno sólo nos ha dado evidencia verbal de un potencial jailbreak limitado y no universal, que esencialmente consiste en pedirle al modelo que lea una base de código específica y corrija cualquier falla de software», dijo.
«Tenemos entendido que se compartió un posible jailbreak con el gobierno. Hemos revisado un informe que creemos que es la base de la directiva del gobierno y validamos que el nivel de capacidad mostrado allí está ampliamente disponible en otros modelos (incluido el GPT-5.5 de OpenAI), y es utilizado todos los días por los defensores que mantienen seguros los sistemas».
Anthropic también señaló que si bien corresponde al gobierno bloquear los despliegues inseguros de IA, dijo que el descubrimiento de un «posible jailbreak estrecho» no debería ser la razón para retirar un modelo comercial que se ha implementado ampliamente. El proceso legal debe ser «transparente, justo, claro y basado en hechos técnicos», añadió.
A principios de este año, el Departamento de Defensa de EE.UU. calificó a Anthropic como un «riesgo para la cadena de suministro» después de que el fabricante de Claude intentara trazar líneas rojas sobre el uso militar de su tecnología. La empresa ha presentado dos demandas para bloquear la designación.