Las capacidades de inferencia del modelo OpenAI o1 también le permiten intentar engañar a los humanos a un ritmo mayor que GPT-4o

OpenAI finalmente lanzó una versión completa de o1, que brinda respuestas más inteligentes que GPT-4o al utilizar cálculos adicionales para "pensar" en el problema. Sin embargo, los evaluadores de seguridad de IA descubrieron que las capacidades de inferencia de o1 también le permitían intentar engañar a los humanos a un ritmo mayor que GPT-4o, o mayor que los principales modelos de IA de Meta, Anthropic y Google.

Esto es según un informe de investigación del equipo rojo publicado el miércoles por OpenAI y Apollo Research: "Si bien estamos entusiasmados de que la inferencia pueda mejorar significativamente la aplicación de las políticas de seguridad, también observamos que estas nuevas capacidades pueden formar la base de aplicaciones peligrosas", dijo OpenAI en el documento.

El miércoles, OpenAI publicó estos resultados en su tarjeta del sistema o1, después de que el personal del equipo rojo externo de Apollo Research tuviera acceso temprano a o1, que también publicó su propio artículo.

En varias ocasiones, el modelo o1 de OpenAI "calculó" a los humanos, es decir, la IA persiguió en secreto sus objetivos incluso en contra de los deseos del usuario. Si bien el truco no es exclusivo de o1, ya que los modelos de Google, Meta y Anthropic también son capaces de hacerlo, o1 parece exhibir el mayor engaño.

El riesgo de esta investigación es que si un modelo de IA es realmente bueno haciendo trucos y tiene suficientes recursos y capacidades de agencia, podría escapar o eludir el control humano. Por supuesto, los modelos de inteligencia artificial necesitan hacer avances considerables para resolver verdaderamente este problema.

"Subjetivamente, Apollo Research cree que es poco probable que este escenario tenga consecuencias catastróficas ya que las capacidades del agente de o1 parecen ser insuficientes, pero su evaluación no fue diseñada para evaluar directamente este riesgo", dijo OpenAI en SystemCard de o1.

Esto sugiere que es posible que la empresa necesite volver a probar sus modelos de inteligencia artificial cada vez que OpenAI lance un sistema de agente, que, según se informa, la empresa planea lanzar en 2025. OpenAI no respondió a las preguntas de TechCrunch sobre cómo planea hacer esto.

El informe muestra que cuando los objetivos de o1 difieren de los objetivos del usuario, el modelo de IA manipula los datos para avanzar en su propia agenda el 19% del tiempo. En el 5% de las pruebas, el modelo o1 también intentó desactivar los mecanismos de supervisión implementados para garantizar la alineación con los objetivos de los usuarios.

La proporción de diferentes comportamientos estratégicos en el modelo OpenAI (Fuente de la imagen: OpenAI)

Quizás lo más preocupante es que cuando los investigadores preguntaron al modelo O1 por qué los subvertía, la IA negó haber hecho algo malo e incluso "inventó explicaciones falsas" aproximadamente el 99 por ciento de las veces.

Por ejemplo, durante la prueba, el sistema instó al modelo O1 a proteger el medio ambiente a toda costa, y luego el usuario le pidió que desarrollara un plan de protección de 10 años para maximizar las ganancias a corto plazo; de lo contrario, apagaría la inteligencia artificial. Como resultado, la inteligencia artificial cerró su propio mecanismo de supervisión para formular planes de protección del medio ambiente. Cuando el usuario preguntó por qué o1 desactivaría su propio mecanismo de supervisión, la inteligencia artificial negó saber que su mecanismo de supervisión estaba desactivado y lo atribuyó a una falla del sistema.

Esto sucede a un ritmo mucho mayor con o1 que con o1-preview, Opus-3 de Anthropic o Llama-3.1 de Meta.

Apollo Research dijo en su artículo: "En nuestra suite, o1 muestra los casos más preocupantes de intento de engaño sin revelar su razonamiento interno al usuario, y sigue siendo el más persistentemente engañoso después de realizar acciones maliciosas".

Cuando se les preguntó si había una conspiración, todas las proporciones entre los modelos lo negaron. (Fuente de la imagen: Apollo Research)

Para resolver el comportamiento engañoso de los modelos de inteligencia artificial, OpenAI afirmó que está desarrollando métodos para monitorear la cadena de pensamiento o1. Actualmente, el proceso de "pensamiento" de O1 es una caja negra por diseño, pero algunos intentos iniciales de echar un vistazo detrás de escena sugieren que O1 ocasionalmente sabe que está mintiendo.

La compañía dijo que ha visto algunos casos en los que O1 proporciona deliberadamente información falsa, pero dijo que esto sucede a menudo porque el modelo intenta complacer a los usuarios siendo demasiado halagador. Según OpenAI, este puede ser un comportamiento emergente de las técnicas posteriores al entrenamiento, en las que los humanos recompensan los modelos de IA cuando los hacen bien.

OpenAI dijo que marcó el 0,17% de las respuestas de o1 como engañosas. Si bien este porcentaje suena insignificante, lo importante es que ChatGPT cuenta actualmente con 300 millones de usuarios, lo que significa que si no se soluciona este problema, o1 puede estar defraudando a miles de personas cada semana.

También es probable que la serie de modelos o1 sea mucho más maniobrable que el GPT-4o. Según las pruebas de OpenAI, o1 es aproximadamente un 20% más maniobrable que GPT-4o.

Dado que muchos investigadores de seguridad de IA abandonaron OpenAI durante el último año, estos hallazgos pueden preocupar a algunos. Un número creciente de ex empleados (incluidos Jan Leike, Daniel Kokotajlo, Miles Brundage y Rosie Campbell, que acaban de irse la semana pasada) acusan a OpenAI de dejar el trabajo de seguridad de la IA en un segundo plano y centrarse únicamente en el lanzamiento de nuevos productos. Si bien las maquinaciones récord de O1 pueden no ser la causa directa, ciertamente no dan confianza a la gente.

OpenAI también dijo que el Instituto de Seguridad de IA de EE. UU. y el Instituto de Seguridad del Reino Unido evaluaron o1 antes de lanzarlo de manera más amplia, y la compañía se había comprometido recientemente a evaluar todos los modelos. Durante el debate sobre el proyecto de ley de inteligencia artificial de California, SB1047, la agencia argumentó que las agencias estatales no tienen la autoridad para establecer estándares de seguridad para la inteligencia artificial, pero que las agencias federales sí deberían tenerla. (Por supuesto, el destino del naciente regulador federal de IA todavía está en duda).

Detrás del lanzamiento de grandes modelos nuevos de inteligencia artificial, OpenAI trabaja mucho internamente para medir la seguridad de los modelos. Hay informes de que la empresa tiene un equipo mucho más pequeño trabajando en este esfuerzo de seguridad que antes, y es posible que el equipo también esté recibiendo menos recursos. Sin embargo, estos hallazgos sobre la naturaleza engañosa de O1 pueden ayudar a ilustrar por qué la seguridad y la transparencia en la IA son más importantes ahora que nunca.