OpenAI lanza su primer modelo con capacidades de razonamiento, o1, que tiene capacidades preliminares de verificación de hechos

OpenAI está lanzando un nuevo modelo llamado o1, el primero de una serie planificada de modelos de "inferencia" que están entrenados para responder preguntas más complejas más rápido que los humanos. Se lanzará al mismo tiempo que el o1-mini, que es una versión más pequeña y económica. Así es, si estás familiarizado con los rumores sobre IA: este es el modelo de fresa que está generando mucha publicidad.

Para OpenAI, o1 representa un paso hacia su objetivo más amplio de inteligencia artificial similar a la humana. En términos más prácticos, hace un mejor trabajo que los modelos anteriores al escribir código y resolver problemas de varios pasos. Pero es más caro y más lento que GPT-4o. OpenAI llama a esta versión de o1 una "versión preliminar" para enfatizar su prototipo.

Los usuarios de ChatGPTPlus y Team pueden acceder a o1-preview y o1-mini a partir de hoy, mientras que los usuarios de Enterprise y Edu tendrán acceso a principios de la próxima semana. El acceso de los desarrolladores a o1 es muy caro: en la API, o1-preview cobra 15 dólares por cada millón de tokens de entrada (es decir, bloques de texto analizados por el modelo) y 60 dólares por cada millón de tokens de salida. En comparación, GPT-4o tiene un precio de 5 dólares por 1 millón de frases de entrada y 15 dólares por 1 millón de frases de salida.

Jerry Tworek, jefe de investigación de OpenAI, me dijo que la capacitación detrás de o1 es fundamentalmente diferente de sus predecesores, pero la compañía fue vaga en los detalles. Dijo que o1 "emplea un nuevo algoritmo de optimización y un nuevo conjunto de datos de entrenamiento especialmente personalizado para él".

OpenAI está entrenando modelos GPT anteriores para imitar patrones en los datos de entrenamiento. Cuando se usa o1, OpenAI entrena el modelo para resolver problemas por sí solo utilizando una técnica llamada "aprendizaje por refuerzo", que enseña al sistema a través de recompensas y castigos. Luego procesa la consulta utilizando "cadenas de pensamiento", similar a cómo los humanos resuelven problemas paso a paso.

OpenAI dice que el modelo debería ser más preciso gracias a este nuevo método de entrenamiento. "Nos dimos cuenta de que este modelo tenía menos alucinaciones", dijo Tworek. Pero el problema persiste. "No podemos decir que hayamos resuelto el problema de las alucinaciones". Este nuevo modelo se diferencia del GPT-4o principalmente en que puede manejar problemas complejos, como codificación y problemas matemáticos, mejor que su predecesor, al tiempo que es capaz de explicar su propio razonamiento.

Bob McGrew, director de investigación de OpenAI, me dijo: "El modelo fue definitivamente mejor que yo para resolver el examen de matemáticas AP, y me especialicé en matemáticas en la universidad. OpenAI también probó o1 con el examen de calificación de la Olimpiada Internacional de Matemáticas, y GPT-4o solo resolvió correctamente el 13% de los problemas, mientras que o1 logró el 83%", dijo.

"No podemos decir que hayamos solucionado el problema de las alucinaciones"

El nuevo modelo alcanzó el puesto 89 entre los concursantes en una competencia de programación en línea llamada Codeforces, y OpenAI afirma que la próxima versión actualizada del modelo logrará "un rendimiento similar al de un estudiante de doctorado en tareas desafiantes de referencia en física, química y biología".

Al mismo tiempo, o1 es inferior a GPT-4o en muchos aspectos. No llega a comprender realmente el mundo. Tampoco tiene la capacidad de navegar por la web ni procesar archivos e imágenes. Aún así, la compañía cree que representa una capacidad completamente nueva. Se llama o1, que significa "restablecer el contador a 1".

"Honestamente, creo que hemos hecho un trabajo terrible con los nombres tradicionales", dijo McGrew. "Así que espero que este sea un primer paso para que busquemos nombres más nuevos y sensatos que comuniquen mejor al resto del mundo lo que estamos haciendo".

McGrew y Tworek demostraron o1 mediante videollamada esta semana. Le pidieron que resolviera el rompecabezas: "Cuando la edad de la princesa es el doble de la edad del príncipe, la edad de la princesa es el doble de la edad del príncipe. ¿Cuáles son las edades del príncipe y la princesa? Por favor proporcione todas las respuestas a esta pregunta".

El modelo corrió durante 30 segundos y luego dio la respuesta correcta. OpenAI diseñó la interfaz para mostrar los pasos de razonamiento tal como piensa el modelo. Lo que me impresionó no fue que demostrara su propio trabajo (GPT-4o podía hacer esto con indicaciones) sino cuán deliberadamente O1 imitaba el pensamiento humano. Frases como "Tengo curiosidad", "Estoy pensando" y "Está bien, déjame ver" crean la ilusión de pensamiento secuencial.

Pero este modelo no puede pensar y no es humano. Entonces, ¿por qué diseñarlo para que parezca un humano?

Frases como "Tengo curiosidad", "Estoy pensando" y "Está bien, déjame ver" pueden dar a las personas la ilusión de pensar paso a paso.

Tworek cree que OpenAI no cree que el pensamiento de los modelos de inteligencia artificial sea equivalente al pensamiento humano. Pero dijo que la interfaz está diseñada para mostrar cómo los modelos pueden dedicar más tiempo a procesar y resolver problemas en profundidad. "En cierto modo, es más humano que el modelo anterior".

"Creo que encontrarás que hay muchas cosas que se sienten un poco extrañas, pero también cosas que se sienten extrañamente humanas", dijo McGrew. "El modelo tiene una cantidad de tiempo limitada para procesar una consulta, por lo que podría decir: Oh, se me acabó el tiempo, déjame llegar a la respuesta rápidamente. Al principio, en su cadena de pensamiento, también podría parecer que está haciendo una lluvia de ideas y diciendo: ¿Puedo hacer esto o aquello, cómo hago aquello?"

Los modelos de lenguaje grandes no son completamente inteligentes. Básicamente, simplemente predicen secuencias de palabras para proporcionar respuestas basadas en patrones aprendidos de grandes cantidades de datos. Tomemos como ejemplo ChatGPT, que a menudo confunde la palabra "fresa" con solo dos R porque no descompone la palabra correctamente. Sin embargo, el nuevo modelo O1 ya puede responder correctamente a esta pregunta.

Según los informes, OpenAI espera recaudar más fondos con una sorprendente valoración de 150 mil millones de dólares, y su impulso de desarrollo depende de más avances en la investigación. La empresa está aportando capacidades de razonamiento a LLM porque ve un futuro de sistemas autónomos, o agentes, capaces de tomar decisiones y acciones en su nombre.

Para los investigadores de IA, descifrar el razonamiento es un paso importante hacia la inteligencia a nivel humano. La idea era que si un modelo podía hacer algo más que simplemente reconocer patrones, podría conducir a avances en campos como la medicina y la ingeniería. Pero actualmente, las capacidades de inferencia de O1 son relativamente lentas, a diferencia de los agentes, y su uso es costoso para los desarrolladores.

"Hemos estado trabajando en la inferencia durante muchos meses porque creemos que en realidad se trata de un avance crítico", dijo McGrew. "Básicamente, es un nuevo paradigma para que los modelos puedan resolver problemas realmente difíciles y avanzar hacia una inteligencia a nivel humano".