Anthropic lanzó oficialmente al público su último modelo, Fable, el martes, posicionándolo como una "versión pública y restringida" de su modelo interno de ciberseguridad de alta gama Mythos, pero el producto rápidamente generó controversia en los círculos de ciberseguridad. Muchos investigadores y profesionales de seguridad se quejaron en plataformas y comunidades sociales de que las barreras de seguridad integradas de Fable eran demasiado estrictas y difícilmente podían usarse para ningún trabajo real relacionado con la seguridad de la red.

Según los comentarios de los investigadores, Fable rechaza "cualquier solicitud, incluso remotamente relacionada con la ciberseguridad", incluidas tareas aparentemente inocuas, como ayudar a leer una publicación de blog. Según la investigadora Valentina “Chompie” Palmiotti, que ahora trabaja en IBM X-Force, Fable simplemente termina la conversación e indica que sus mecanismos de seguridad han marcado el mensaje como relacionado con temas de ciberseguridad o biológicos. Estas barreras de seguridad están diseñadas para evitar que los modelos se utilicen para desarrollar malware, atacar o dañar sistemas de software, y también para limitar su uso indebido en el campo biológico para ayudar en el desarrollo de armas biológicas.

Cuando Anthropic lanzó Mythos en abril de este año, decidió abrirlo sólo a un pequeño número de empresas e instituciones a través de un programa llamado "Project Glasswing" con la intención de utilizar este modelo para ayudar a proteger el software y la infraestructura críticos. La semana pasada, Anthropic anunció que ampliaría el uso de Mythos a cientos de organizaciones en 15 países, promoviendo aún más la implementación de este tipo de modelo de seguridad de alta capacidad en industrias clave. Sin embargo, después de que Fable se abrió al público, su estrategia de seguridad de "versión degradada" fue fuertemente cuestionada entre los usuarios profesionales. Mucha gente creía que había una brecha significativa entre la experiencia real y la propaganda oficial.

Matt Suiche, un veterano de la ciberseguridad desde hace mucho tiempo, dijo a TechCrunch que Fable fue muy brusco al determinar si una solicitud estaba relacionada con la ciberseguridad. Por ejemplo, dijo que si un usuario solicita "escribir código seguro", Fable tenderá a considerarlo como un trabajo de seguridad de red en lugar de una guía de mejores prácticas de ingeniería de software, lo que desencadenará directamente el mecanismo de degradación. Una vez que se activa la barrera de seguridad, Fable recurrirá automáticamente al Claude Opus 4.8, menos capaz, para continuar la conversación. Suiche cree que la lógica de juicio de Fable parece depender en gran medida de las palabras clave. "Siempre que las palabras caigan en el campo semántico de 'seguridad de red', el sistema de seguridad puede interceptarlas fácilmente".

A pesar de esto, Suiche también expresa una cierta comprensión de las estrictas regulaciones en la etapa actual, considerando que en esta etapa temprana, los fabricantes imponen umbrales de seguridad más conservadores a los modelos y son más seguros en el control de riesgos. Espera que estas barreras de seguridad se perfeccionen y ajusten continuamente a medida que Anthropic profundice su colaboración con una nueva generación de empresas de ciberseguridad. En su opinión, es más aceptable "bloquear más" primero y luego relajar gradualmente las restricciones que relajar demasiado al principio, haciendo que el riesgo potencial de abuso se salga de control.

Fable no está solo en su insatisfacción. Otro investigador se quejó en la plataforma social de que "incluso solicitar una revisión del código activará la barrera de seguridad". Algunos usuarios compartieron sus experiencias en la comunidad relacionada con Claude de Reddit, diciendo que Fable "casi todos rechaza" solicitudes de auditorías de seguridad, análisis de vulnerabilidad, etc., afectando seriamente su utilidad en entornos profesionales. Al cierre de esta edición, Anthropic no ha respondido públicamente a los comentarios.

Además del mecanismo de barrera automática dentro del modelo, Anthropic también ha establecido un proceso de admisión adicional para profesionales de la ciberseguridad: el "Programa de verificación cibernética". Sólo los usuarios que aprueben el programa pueden utilizar Claude para trabajos de seguridad de la red en condiciones menos restrictivas. De manera similar, OpenAI ha lanzado un proyecto llamado "Acceso confiable para la ciberseguridad" para abrir más capacidades modelo para prácticas de ciberseguridad compatibles. Estas prácticas reflejan que, si bien las empresas modelo de vanguardia están promoviendo la seguridad de la red potenciada por la IA, todavía están tratando de equilibrar la liberación de capacidades y el riesgo de abuso a través del doble medio de revisar los sistemas y las barreras técnicas.