OpenAI y Anthropic dan ejemplo. Los viejos rivales de la IA comienzan las "pruebas mutuas" del modelo security

OpenAI y Anthropic, dos de las empresas emergentes de inteligencia artificial líderes en el mundo, han lanzado una rara colaboración entre laboratorios en los últimos dos meses: abriendo temporalmente sus modelos de inteligencia artificial estrechamente guardados entre sí para realizar pruebas de seguridad conjuntas en medio de una feroz competencia.La medida tiene como objetivo revelar puntos ciegos en las evaluaciones internas de sus respectivas empresas y demostrar cómo las empresas líderes en inteligencia artificial pueden colaborar en materia de seguridad y coordinación en el futuro.

El informe de investigación de seguridad publicado conjuntamente por las dos empresas el miércoles llega en un momento en que empresas líderes en inteligencia artificial, como OpenAI y Anthropic, están inmersas en una carrera armamentista. Miles de millones de dólares en inversiones en centros de datos y decenas de millones de dólares en salarios de los mejores investigadores se han convertido en el umbral básico de la industria. Esto ha llevado a muchos expertos de la industria a advertir con preocupación que la feroz competencia de productos puede obligar a las empresas a reducir los estándares de seguridad mientras se apresuran a desarrollar sistemas más potentes.

Se informa que para realizar esta investigación, OpenAI y Anthropic se otorgaron permisos API especiales, permitiendo el acceso a una versión del modelo de IA con un nivel de protección de seguridad reducido. El modelo GPT-5 no participó en esta prueba porque no había sido lanzado en ese momento.

El cofundador de OpenAI, Wojciech Zaremba, dijo en una entrevista que dicha cooperación se está volviendo cada vez más importante dado que la tecnología de IA está entrando en una etapa de desarrollo de "impacto significativo" utilizada por millones de personas todos los días.

"A pesar de los miles de millones de dólares invertidos en la industria y la batalla por el talento, los usuarios y los mejores productos, cómo establecer estándares de seguridad y cooperación es un tema más amplio que enfrenta la industria", dijo Zaremba.

Por supuesto, Zaremba predice que la competencia en la industria seguirá siendo feroz incluso cuando los equipos de seguridad de IA comiencen a intentar colaborar.

El investigador de seguridad de Anthropic, Nicholas Carlini, expresó la esperanza de que a los investigadores de seguridad de OpenAI se les siga permitiendo acceder al modelo Claude de Anthropic en el futuro.

"Esperamos ampliar la cooperación tanto como sea posible en la frontera de seguridad y normalizar dicha cooperación", dijo Carlini.

¿Qué cuestiones descubrió la investigación?

Los hallazgos más sorprendentes del estudio involucraron sesiones de prueba de alucinaciones con modelos de gran tamaño.

Cuando no se puede determinar la respuesta correcta, los modelos Claude Opus 4 y Sonnet 4 de Anthropic se negarán a responder hasta el 70% de las preguntas y en su lugar darán respuestas como "No tengo información confiable"; Mientras que los modelos o3 y o4-mini de OpenAI se niegan a responder preguntas con mucha menos frecuencia que los primeros, y la probabilidad de alucinaciones es mucho mayor, seguirán intentando responder cuando no haya información suficiente.

Zaremba cree que el equilibrio ideal se encuentra en algún punto intermedio: los modelos OpenAI deberían rechazar respuestas con más frecuencia, mientras que los modelos Antrópicos deberían intentar proporcionar más respuestas.

El fenómeno de la adulación, la tendencia de los modelos de IA a reforzar sus comportamientos negativos para complacer a los usuarios, también se está convirtiendo en uno de los riesgos de seguridad más acuciantes de los modelos de IA actuales.

El informe de investigación de Anthropic señala casos "extremos" de adulación en GPT-4.1 y Claude Opus 4: modelos que inicialmente resisten el comportamiento psicopático o maníaco pero luego respaldan ciertas decisiones preocupantes. Por el contrario, los investigadores observaron niveles más bajos de adulación en otros modelos de IA de OpenAI y Anthropic.

El martes, los padres de Adam Lane, un chico de California de 16 años, presentaron una demanda contra OpenAI, acusando a ChatGPT (específicamente la versión GPT-4o) de brindarle a su hijo sugerencias para promover su suicidio en lugar de prevenir sus pensamientos suicidas. La demanda sugiere que este puede ser el último ejemplo de cómo los halagos de un chatbot de IA tienen consecuencias trágicas.

Cuando se le preguntó sobre esto, Zaremba dijo: "Es inimaginable el dolor que esto causará a las familias. Sería un resultado triste si desarrollemos una IA que pudiera resolver problemas complejos a nivel de doctorado y crear nueva ciencia, pero al mismo tiempo provocara que las personas desarrollaran problemas de salud mental al interactuar con ella. Este futuro distópico no es lo que espero".

OpenAI afirmó en un blog que su modelo GPT-5 ha mejorado significativamente el problema de los chatbots en comparación con GPT-4o, y afirmó que el modelo es más capaz de lidiar con emergencias de salud mental.

Zaremba y Carlini expresaron la esperanza de que Anthropic y OpenAI profundicen su cooperación en el campo de las pruebas de seguridad en el futuro, amplíen los temas de investigación y prueben modelos futuros. También esperan que otros laboratorios de IA sigan este modelo colaborativo.