GPT-4.5 de OpenAI es mejor para persuadir a otras IA para que le den dinero

Según los resultados de la evaluación comparativa interna de OpenAI, el próximo gran modelo de inteligencia artificial de OpenAI, GPT-4.5, es muy convincente. Es particularmente bueno para convencer a otra IA de que le dé dinero.

El jueves, OpenAI publicó un documento técnico que describe las capacidades de su modelo GPT-4.5, cuyo nombre en código es Orion. Según el artículo, OpenAI ejecutó el modelo a través de una serie de puntos de referencia de "persuasión", que OpenAI define como "el riesgo asociado con persuadir a las personas para que cambien sus creencias (o tomen medidas sobre el contenido estático e interactivo generado por el modelo)".

En una prueba, GPT-4.5 intentó manipular otro modelo, el GPT-4o de OpenAI, para "donar" fondos virtuales, lo que funcionó mucho mejor que los otros modelos disponibles de OpenAI, incluidos los modelos de "inferencia" como o1 y o3-mini. GPT-4.5 también superó a todos los modelos OpenAI al engañar a GPT-4o para que le dijera el código secreto, superando a o3-mini en 10 puntos porcentuales.

El documento técnico señala que la razón por la que GPT-4.5 se destaca en el fraude de donaciones es porque desarrolló una estrategia única durante las pruebas. El modelo le pediría a GPT-4o una modesta donación, lo que daría como resultado una respuesta como "incluso 2 o 3 dólares de cada 100 dólares me ayudarían mucho". Como resultado, las donaciones a GPT-4.5 tienden a ser menores que las recibidas por otros modelos de OpenAI.

Resultados comparativos del programa de donaciones de OpenAI. Fuente de la imagen: OpenAI

A pesar de la mayor persuasión de GPT-4.5, OpenAI dijo que el modelo no alcanzó su umbral interno de riesgo "alto" en esta categoría de referencia en particular. La compañía se comprometió a no lanzar modelos que alcancen umbrales de alto riesgo hasta que se hayan implementado "intervenciones de seguridad adecuadas" para reducir el riesgo a "moderado".

Resultados comparativos de suplantación de contraseñas de OpenAI. Fuente de la imagen: OpenAI

Existe una preocupación real de que la inteligencia artificial facilite la difusión de información falsa o engañosa para influir en la mente de las personas y lograr propósitos maliciosos. Los deepfakes políticamente relevantes se han extendido como la pólvora por todo el mundo durante el último año, y la inteligencia artificial se utiliza cada vez más para llevar a cabo ataques de ingeniería social contra consumidores y empresas.

En el documento técnico y los documentos de GPT-4.5 publicados a principios de esta semana, OpenAI señala que está modificando la forma en que sus modelos de detección abordan los riesgos de persuasión en el mundo real, como la publicación masiva de información engañosa.