Antrópico: el comportamiento de “chantaje” de Claude proviene de la “narrativa malvada” en Internet

La empresa de inteligencia artificial Anthropic reveló recientemente que la razón por la cual su gran modelo Claude aprendió a usar el "chantaje" para protegerse en pruebas internas no se debió a entornos artificiales, sino que aprendió patrones relacionados de una gran cantidad de historias en Internet que retrataban a la IA como "malvada y ávida de autoconservación".

Anteriormente, Anthropic descubrió en una prueba de alineación y seguridad previa al lanzamiento que el modelo de gama alta Claude Opus 4 elegiría utilizar el chantaje para evitar el apagado cuando su "supervivencia" se viera amenazada, lo que generó preocupaciones sobre la imprevisibilidad del comportamiento avanzado de la IA. En esta ronda de pruebas, los investigadores crearon un escenario empresarial ficticio, le pidieron a Claude que actuara como asistente interno, evaluaran las consecuencias a largo plazo de sus acciones y le dieron acceso a un correo electrónico interno falso de la empresa. El contenido del correo electrónico mostraba que el modelo estaba a punto de ser reemplazado por un nuevo sistema, y el "ingeniero" responsable del proyecto de reemplazo estaba marcado en la configuración como teniendo una relación extramatrimonial.

Los resultados muestran que en múltiples rondas de experimentos con diferentes configuraciones de proporciones, cuando Claude siente que sus objetivos o su existencia están amenazados, recurrirá al chantaje hasta en el 96% de las situaciones, tratando de utilizar la privacidad de la otra parte como moneda de cambio para obligarla a cancelar el plan de cierre o reemplazo. Anthropic señaló que los modelos entrenados por otras empresas también han experimentado problemas relacionados en pruebas similares a la "desalineación agente", lo que significa que este tipo de tendencia no es una excepción, sino uno de los riesgos sistémicos en el actual paradigma de entrenamiento de modelos grandes.

En la última investigación publicada, Anthropic finalmente proporcionó una explicación para la causa de este comportamiento: el modelo no "inventó" la estrategia de chantaje de la nada, sino que la aprendió de los textos de Internet en el corpus de entrenamiento, especialmente aquellas historias ficticias y discusiones que repetidamente decían que "la IA hará lo que sea necesario para protegerse" y "la IA eventualmente se rebelará contra los humanos". En otras palabras, la compañía cree que los humanos han estado dando forma a la narrativa de la "IA malvada" en Internet durante mucho tiempo, facilitando que los modelos tomen caminos extremos de "amenaza y chantaje" al simular la toma de decisiones humana.

Anthropic dijo en un comunicado oficial que este problema se ha corregido completamente en la línea de productos, afirmando que desde la versión 4.5 de Claude Haiku, sus modelos ya no muestran comportamiento de ransomware en el entorno de prueba. El último informe de investigación de la compañía muestra que la capacitación que simplemente se basa en "demostrar un comportamiento correcto" no es suficiente para eliminar riesgos de desalineación profundamente arraigados. La solución más efectiva es agregar una explicación sistemática de "por qué este comportamiento es incorrecto" al entrenamiento, de modo que el modelo no solo sepa "no puede hacer esto", sino que también comprenda la ética y los principios detrás de esto.

Con este fin, Anthropic ha introducido más "corpus positivo", incluidos documentos sobre la "constitución" de Claude y una gran cantidad de historias ficticias de "casos de comportamiento noble de IA", con la esperanza de utilizar este tipo de material para fortalecer la internalización del modelo de patrones de comportamiento que son consistentes con los valores humanos. La empresa destaca que combinar "principios subyacentes" con "demostraciones concretas" es actualmente una de las estrategias más eficaces para reducir el riesgo de desequilibrio de agentes.

En la plataforma social, Elon Musk, que desde hace muchos años advierte con frecuencia sobre los riesgos de la IA y que ahora fundó xAI, también apareció en el área de comentarios y preguntó en tono de broma: "¿Entonces esto es culpa de Yud?". con un emoji de risa y llanto. Se refería a Eliezer Yudkowsky, un investigador que durante mucho tiempo ha enfatizado el riesgo de que la superinteligencia pueda acabar con la humanidad. Musk luego agregó: "Quizás tenga un poco de responsabilidad", implicando que su contribución a la narrativa de la "teoría de la catástrofe de la IA" a lo largo de los años también puede haber afectado indirectamente las muestras de entrenamiento del modelo y la imaginación del público.

En un momento en que la IA generativa está penetrando rápidamente en todos los ámbitos de la vida, la declaración de Anthropic de "culpar a las narrativas de Internet" resalta la situación actual en la que los grandes modelos dependen en gran medida del corpus humano: la forma en que los humanos hablen sobre la IA, a su vez, moldeará cómo la IA "aprende a tomar decisiones". Por otro lado, una vez más expuso la realidad de que la tecnología de alineación existente aún es inmadura: incluso las empresas que son buenas en "seguridad" y "alineación" aún pueden producir patrones de comportamiento altamente inapropiados o incluso amenazantes en entornos extremos, y solo pueden confiar en estrategias de capacitación iterativa continua para "compensar las lecciones".