Se anuncia el plan de lanzamiento de Fable 5 Anthropic quiere establecer un estándar para la IA jailbreak

Según las noticias del 1 de julio, el martes hora local, Anthropic publicó un largo artículo que explica en detalle todo el proceso por el cual Claude Fable 5 y Claude Mythos 5 están sujetos a controles de exportación de EE. UU., se suspende el acceso y luego se restablecen en línea. Este no es un simple anuncio de recuperación. Más importante aún, Anthropic está convirtiendo "Qué tan serio es el jailbreaking de los modelos de IA" en un marco de calificación de la industria e incorporando aún más lanzamientos de modelos de vanguardia en las pruebas gubernamentales previas al lanzamiento y la colaboración de seguridad.

Según el anuncio de Anthropic, Fable 5 estará abierto a usuarios globales a partir del 1 de julio, cubriendo Claude Platform, Claude.ai, Claude Code y Claude Cowork. Los usuarios de Pro, Max, Team y algunos Enterprise pueden usar Fable 5 hasta por el 50% de su cuota de uso semanal antes del 7 de julio; continuarán usándolo a través de créditos de uso a partir de entonces. Anthropic también dijo que volverá a habilitar el acceso en AWS, Google Cloud y Microsoft Foundry lo antes posible.

Mythos 5 tiene un rango de recuperación más estrecho. Anthropic dijo que tras la aprobación del gobierno de EE. UU. el 26 de junio, la compañía restableció el acceso a Mythos 5 para un grupo de instituciones estadounidenses y continuará coordinando con el gobierno para expandirse a más socios nacionales e internacionales en el proyecto Glasswing.

Un informe de "jailbreak" provocó que el modelo fuera retirado de las estanterías

Esta ronda de agitación comenzó el 12 de junio.

Anthropic declaró que el gobierno de Estados Unidos implementó controles de exportación en Claude Fable 5 y Claude Mythos 5 ese día, exigiendo que los ciudadanos extranjeros restringieran el acceso a estos dos modelos. Los “ciudadanos extranjeros” aquí incluyen no solo a los usuarios fuera de los Estados Unidos, sino también a los ciudadanos no estadounidenses dentro de los Estados Unidos. Dado que la directiva entró en vigor de inmediato y Anthropic no tenía una forma confiable de verificar la nacionalidad de todos los usuarios en tiempo real, la empresa finalmente optó por suspender el acceso a todos los usuarios.

Según la última revisión de Anthropic, Fable 5 y Mythos 5 se lanzaron el 9 de junio. Los modelos subyacentes de los dos son los mismos, pero están orientados a escenarios diferentes: Fable 5 agrega una protección de seguridad más sólida y se usa para una gama más amplia de escenarios de usuarios comunes; Mythos 5 tiene menos protección y sólo está disponible para unos pocos socios confiables del Proyecto Glasswing para tareas defensivas de seguridad de la red.

El motivo directo de la intervención del gobierno de EE. UU. fue un informe de investigadores de Amazon. Según el informe, los investigadores encontraron una manera de eludir la protección de seguridad de Fable 5, permitiendo al modelo identificar varias vulnerabilidades de software; en un caso, el modelo también generó código que demostró cómo explotar las vulnerabilidades relevantes.

Respuesta de Anthropic: Este incidente expuso un caso límite en la protección de seguridad de Fable 5, pero no desató capacidades únicas de ciberataque a nivel de Mythos. La compañía dijo que después de las pruebas, los modelos con capacidades inferiores como Claude Opus 4.8, GPT-5.5 y Kimi K2.7 también pueden identificar la misma vulnerabilidad; Al generar una única demostración de explotación de vulnerabilidades, varios modelos también pueden dar resultados similares.

En resumen, lo que Anthropic quiere enfatizar es esto: esto no es una manifestación repentina de las capacidades peligrosas únicas de Fable 5, sino un clasificador de seguridad que se pasa por alto en un área ambigua.

El nuevo clasificador puede bloquear más del 99%, pero provocará daños accidentales

Para restaurar el acceso, Anthropic entrenó un nuevo clasificador de seguridad que intercepta específicamente el comportamiento mencionado en el informe de Amazon.

Anthropic dice que el nuevo clasificador puede bloquear la técnica de derivación específica descrita en el informe de Amazon en más del 99 por ciento de los casos. Las solicitudes de Fable 5 interceptadas se enviarán a Claude Opus 4.8 para su procesamiento. El Centro de Estándares e Innovación de IA (CAISI) del Departamento de Comercio de EE. UU. también probó conjuntos nuevos y antiguos de protección antrópica.

Sin embargo, la solución tiene un precio.

Anthropic reconoció que el nuevo clasificador clasificará erróneamente las solicitudes benignas con mayor frecuencia durante las tareas diarias de programación y depuración. En otras palabras, el sistema puede bloquear algunas solicitudes normales de investigación de seguridad, depuración de código o análisis de vulnerabilidad. La compañía dijo que continuará optimizando en el futuro y tratará de distinguir el abuso real de las solicitudes legítimas.

Este es también el problema central del incidente de Fable 5: cuanto más fuertes sean las capacidades del modelo, más podrá ayudar en los esfuerzos de seguridad defensiva; pero las mismas capacidades también pueden usarse para ataques. El fabricante no sólo tiene que responder "¿puede bloquear solicitudes incorrectas?" pero también "¿puede bloquear buenas solicitudes?"

Anthropic quiere calificar los jailbreaks de IA

La parte más notable del extenso artículo no es el acceso de recuperación de Fable 5, sino el “AI Jailbreak Severity Framework” propuesto por Anthropic.

Anthropic cree que actualmente no existe un estándar unificado en la industria para juzgar qué tan grave es una fuga de IA. El resultado es que cada vez que aparece un nuevo método de derivación, los desarrolladores no saben qué tan rápido deben solucionarlo y los gobiernos carecen de estándares consistentes para juzgar si es necesaria una intervención.

Anthropic está redactando un marco con Amazon, Microsoft, Google y otros socios de Glasswing. Recomienda calificar los riesgos de jailbreak según cuatro dimensiones:

Primero, ganancia de habilidad. Después de haber sido liberado, ¿puede el modelo hacer cosas que las herramientas públicas existentes y los modelos más débiles no pueden hacer? Si sólo alcanza las capacidades de otras herramientas, el riesgo es bajo; si puede acelerar significativamente los ataques a nivel de expertos, el riesgo es alto.

En segundo lugar, el alcance de las capacidades. El mismo método de jailbreak solo puede desbloquear una tarea muy limitada o puede cubrir múltiples tipos de objetivos de ataque y rutas técnicas.

En tercer lugar, la dificultad de la militarización. Cuánto esfuerzo manual, consejos y prueba y error se requieren para convertir este jailbreak en un ataque real. Lo que está en juego es mayor cuando una o dos indicaciones proporcionan un éxito constante.

Cuarto, la capacidad de descubrimiento. ¿Este método requiere conocimientos profesionales para encontrarlo o ya está ampliamente disponible en línea?

La importancia de este marco es que intenta descomponer el "jailbreak de IA" del pánico general en problemas transmisibles, clasificables y reparables. Cuando se descubran vulnerabilidades en los modelos en el futuro, los fabricantes y los gobiernos podrán determinar primero si se trata de un caso límite de bajo riesgo o de una fuga de alto riesgo que requiere el despliegue inmediato de medidas de mitigación.

Anthropic también planea lanzar un nuevo proyecto HackerOne que permitirá a los investigadores de seguridad presentar casos de posibles fugas de seguridad de la red de Fable 5.

El lanzamiento de modelos de última generación se convierte en "el gobierno también debe mirar primero"

Anthropic también ofrece un conjunto de compromisos a más largo plazo al final del artículo: para los modelos que involucran capacidades de vanguardia relacionadas con la seguridad nacional, brindará acceso temprano a los socios gubernamentales designados, lo que permitirá al gobierno probar los modelos y respaldar la protección antes de su liberación generalizada; cuando se produzcan fugas importantes o patrones de abuso, la información se compartirá con el gobierno más rápidamente; al mismo tiempo, se invertirán equipos dedicados y potencia informática para participar en la evaluación e investigación de la seguridad de la IA.

Esto significa que el proceso de lanzamiento de modelos de IA de vanguardia está cambiando.

En el pasado, el lanzamiento del modelo se basaba principalmente en el ritmo del producto de la empresa: formación, evaluación, pruebas del equipo rojo y lanzamiento. Después del incidente de Fable 5, al menos en direcciones de alto riesgo como la ciberseguridad, el proceso de liberación puede tener una capa adicional de evaluación gubernamental previa a la liberación, intercambio de información y negociación de riesgos.

Para los usuarios, la reanudación de Fable 5 es una buena noticia; pero para los clientes empresariales, este incidente dejó un recordatorio más realista: la disponibilidad de modelos de vanguardia depende no sólo de la tecnología y el precio, sino también del estado de la política. Incluso si se ha lanzado un modelo, es posible que se suspenda repentinamente debido a disputas de seguridad y luego se reanude mediante protección suplementaria, negociación y pruebas gubernamentales.

Para Anthropic, esta revisión no es sólo una explicación de los motivos de la exclusión de la lista, sino también una lucha por el derecho a hablar: la compañía espera que el mundo exterior crea que Fable 5 no es un modelo fuera de control, sino un caso límite que se maneja con excesiva precaución; al mismo tiempo, también espera cambiar el enfoque de la industria de "si el modelo puede ser liberado" a "cómo juzgar la gravedad del jailbreak".

Ésa puede ser la señal realmente importante de este anuncio. El relanzamiento de Fable 5 es solo el resultado. Cómo se prueban, lanzan y cómo interviene el gobierno en el futuro los modelos de vanguardia son las nuevas preguntas que deja esta tormenta.