El jueves, OpenAI lanzó oficialmente una nueva generación de modelos básicos, GPT‑5.4, posicionándolo como “el modelo más potente, eficiente y de vanguardia para el trabajo profesional hasta la fecha”. Además de la versión estándar, OpenAI lanzó simultáneamente dos variantes: GPT‑5.4 Thinking, que enfatiza capacidades de razonamiento complejas, y GPT‑5.4 Pro, que está dirigido a escenarios de aplicaciones de alto rendimiento.

En términos de capacidades de modelo, la versión API de GPT‑5.4 admite una ventana de contexto de hasta 1 millón de tokens, superando con creces cualquier modelo proporcionado anteriormente por OpenAI, lo que resulta beneficioso para procesar flujos de trabajo de cadena larga, como documentos extensos, proyectos complejos o tareas de múltiples rondas. OpenAI también enfatizó la mejora de la eficiencia del uso de tokens, diciendo que GPT-5.4 puede completar tareas de la misma dificultad que el modelo de la generación anterior con significativamente menos tokens, generando así ventajas en costo y velocidad de respuesta.

Los resultados de las pruebas comparativas más recientes muestran que GPT‑5.4 ha logrado una ventaja significativa en múltiples evaluaciones autorizadas, incluido el establecimiento de nuevos récords en las dos pruebas de escenarios de "operación informática" de OSWorld‑Verified y WebArena Verified, y el logro de la puntuación más alta del 83 % en el conjunto de evaluación del trabajo de conocimiento GDPval de OpenAI. GPT-5.4 también ocupó el primer lugar en el punto de referencia APEX-Agents establecido por la startup Mercor para habilidades profesionales como derecho y finanzas.

El director ejecutivo de Mercor, Brendan Foody, dijo en un comunicado que GPT-5.4 sobresale en la producción de resultados a largo plazo, incluidas presentaciones, modelos financieros y análisis legales, "mientras mantiene un rendimiento superior, más rápido y a un costo menor que los modelos de vanguardia comparables".

En términos de confiabilidad, GPT-5.4 continúa la dirección de investigación y desarrollo de OpenAI para reducir las "ilusiones" y los errores fácticos. Los resultados oficiales de la evaluación interna muestran que, en comparación con GPT-5.2, el nuevo modelo tiene una reducción del 33% en la probabilidad de errores a nivel de una sola declaración y una reducción del 18% en la probabilidad de errores en la respuesta general.

Esta versión también viene con un importante cambio en la capa API: OpenAI lanza un nuevo mecanismo de llamada de herramientas llamado Búsqueda de herramientas. En la solución anterior, el indicador del sistema debía inyectar las definiciones de todas las herramientas disponibles en el modelo a la vez. A medida que aumenta la cantidad de herramientas, esta parte del mensaje ocupará una gran cantidad de tokens. La nueva búsqueda de herramientas permite a los modelos consultar definiciones de herramientas bajo demanda, lo que reduce significativamente la sobrecarga en sistemas con herramientas de mayor tamaño y hace que las invocaciones sean más rápidas y menos costosas.

Centrándose en la seguridad y la controlabilidad, OpenAI ha agregado esta vez una nueva evaluación de seguridad para probar el rendimiento de la "cadena de pensamiento" del modelo en tareas de varios pasos. A los investigadores les preocupa desde hace mucho tiempo que los modelos con capacidades de razonamiento puedan "disfrazar" u ocultar el verdadero camino del razonamiento durante el proceso de pensamiento en cadena. Investigaciones anteriores han demostrado que esto puede suceder bajo ciertas condiciones. Los nuevos resultados de la evaluación proporcionados por OpenAI muestran que en la versión de GPT-5.4 Thinking, la probabilidad de un rendimiento tan "engañoso" es aún menor. "Esto muestra que el modelo carece de la capacidad de ocultar activamente el proceso de razonamiento, y el monitoreo de la cadena de pensamiento sigue siendo una herramienta de seguridad eficaz".

Mediante el lanzamiento simultáneo de GPT‑5.4 y sus versiones Pro y Thinking, OpenAI está tratando de encontrar un nuevo equilibrio entre productividad profesional, rentabilidad y controlabilidad de la seguridad, impulsando modelos grandes hacia escenarios de alto valor como el derecho, las finanzas y el trabajo del conocimiento.