Se acerca GPT-5.6: la versión insignia aplasta a GPT-5.5 pero el precio no ha aumentado

GPT-5.6 ya está aquí, pero… ¿qué modelo es? Esta vez OpenAI no utilizó los nombres familiares de Pro, Mini e Instant en el pasado. En cambio, se le ocurrieron tres nombres a la vez:GPT-5.6 Sol, GPT-5.6 Terra, GPT-5.6 Luna.Sol es el sol, Terra es la tierra y Luna es la luna.

Suena elegante, como un nuevo modelo de universo. Pero en realidad son las capas de productos con las que estamos familiarizados: el modelo insignia más potente, un modelo equilibrado para uso diario y un modelo liviano que es económico, rápido y adecuado para llamadas a gran escala.

La declaración oficial de OpenAI es:La serie GPT-5.6 estará completamente abierta en las próximas semanas, pero actualmente se encuentra en vista previa limitada para un pequeño grupo de "socios confiables" en el Codex y API a solicitud del gobierno de EE. UU.

Primero echemos un vistazo a la inteligencia disponible públicamente.

El grado más alto tiene el mismo precio que GPT 5.5

OpenAI asignó a GPT-5.6 tres niveles esta vez: Sol, Terra y Luna.

Según el comunicado oficial, Sol es el modelo insignia, Terra es un modelo equilibrado para el trabajo diario y Luna es un modelo rápido, económico y liviano.

Los modelos de tres niveles se lanzaron de una vez, correspondiendo básicamente a la estructura de tres niveles más común en productos de modelos grandes: el modelo más fuerte es responsable del límite superior de capacidades, el modelo intermedio es responsable de la mayoría de las tareas diarias y el modelo liviano es responsable de la velocidad, el costo y las llamadas concurrentes altas.

El nivel de los tres se puede ver en el precio.

Según el precio de la API anunciado por OpenAI,GPT-5.6 se cobra por cada millón de tokens: Sol cuesta 5 dólares por entrada y 30 dólares por salida; Terra cuesta 2,5 dólares EE.UU. por insumos y 15 dólares EE.UU. por producción; y Luna cuesta US$1 por insumo y US$6 por producción.

Creo que te habrás dado cuenta: aunque el GPT-5.6 Sol es un modelo insignia de nueva generación, el precio está alineado con la versión estándar GPT-5.5, no con el GPT-5.5 Pro.

Terra cayó directamente a la mitad de GPT-5.5 y Luna era solo una quinta parte de GPT-5.5.

GPT-5.5 Pro sigue siendo el modelo más caro de OpenAI en la actualidad. El precio es de 30 USD por millón de tokens para la entrada y de 180 USD por millón de tokens para la salida. El precio es 6 veces mayor que el de la versión estándar GPT-5.5 y el GPT-5.6 Sol. No sé si habrá otro Universo GPT-5.6 que sea “más adecuado para tareas profesionales” en el futuro (es broma).

Sol es el modelo de gama más alta de esta serie GPT-5.6 y también es el modelo que dedica más tiempo a presentarse en el anuncio oficial.

OpenAI considera que GPT-5.6 Sol es el modelo más sólido actualmente, centrándose en sus capacidades en codificación, investigación biológica y seguridad de redes.

En pocas palabras, Sol se posiciona como “el mejor modelo”. No corresponde a escenarios de chat ordinarios, sino a tareas más complejas y cercanas al trabajo real.

Por ejemplo, en un escenario de código, puede continuar avanzando en torno a un objetivo: primero comprender el problema, luego desglosar los pasos, luego llamar a las herramientas, ejecutar comandos, verificar los resultados y hacer correcciones si se producen errores hasta que se complete la tarea.

Para ayudar a Sol a procesar tareas más difíciles, OpenAI introdujo dos nuevos mecanismos en GPT-5.6.

El primero se llamamáximo esfuerzo de razonamiento, que puede traducirse como "máxima fuerza de razonamiento".

La comprensión popular significa que Sol tiene más tiempo para pensar con claridad sobre el problema y tarda más en realizar un razonamiento en profundidad. Es adecuado para tareas complejas que no pueden resolverse mediante una primera reacción.

El segundo se llamamodo ultra,Puede entenderse como "supermodo".

El objetivo de este modelo es permitir que varios subagentes participen juntos en tareas complejas. Puede entenderse como: en el pasado, un asistente de IA trabajaba solo, pero ahora un "administrador de IA" lleva a varios asistentes a manejar los problemas por separado, acelerando así el avance de trabajos complejos.

Terminal-Bench 2.1 es una prueba más cercana al proceso de desarrollo real. Prueba si el modelo puede resolver el problema paso a paso en el entorno de línea de comando. GPT-5.6 Sol logró una puntuación alta del 88,8 % en esta prueba, y la puntuación fue aún mayor en el modo Ultra.

OpenAI mencionó específicamente que cuando el modelo se abra más ampliamente, se publicará un conjunto más completo de resultados de evaluación.

Terra es el rango medio.

La introducción de OpenAI en Terra no es tan larga, pero su posicionamiento es claro: es un modelo equilibrado para el trabajo diario.

Es decir, no necesariamente persigue al más fuerte, sino que logra un equilibrio entre efecto, rapidez y coste. Los funcionarios enfatizaron que las capacidades de Terra son cercanas a las de GPT-5.5, pero el precio es la mitad.

Según la visión de OpenAI, es probable que Terra sea el más utilizado en la serie GPT-5.6. Las tareas ordinarias de oficina a menudo no requieren las capacidades más altas como Sol, pero deben ser estables, económicas y fáciles de usar.

En la prueba Terminal-Bench 2.1,GPT-5.6 Terra obtuvo un 84,3%, lo mismo que Claude Fable 5.

Luna es el grupo de menor costo.

El posicionamiento de Luna por parte de OpenAI también es muy simple: rápido, económico y adecuado para tareas a gran escala, de alta frecuencia y sensibles a los costos.

Por ejemplo, resumen por lotes, clasificación de texto, extracción de información, preguntas y respuestas simples, etc. Estas tareas en sí mismas no son necesariamente complejas, pero el volumen de llamadas puede ser muy grande. La función de Luna es ejecutar estas tareas livianas a un costo menor.

Entre estos tres modelos, Sol es responsable de las capacidades más altas, Terra es responsable del trabajo diario y Luna es responsable de la velocidad y el costo. Suena elegante, pero OpenAI simplemente reempaqueta las capas ya maduras de la industria de los grandes modelos.

Pero creo que el nombre no es importante, siempre y cuando sea barato y fácil de usar.

Valor por dinero

Con solo mirar el anuncio oficial, los puntos de referencia publicados por GPT-5.6 Sol esta vez no son muchos. El propio OpenAI dijo que ahora es solo para informar al mundo exterior sobre el rendimiento del modelo con anticipación, por lo que primero compartirá un conjunto de resultados de evaluación.

Pero el conjunto de puntos de referencia publicado tiene una dirección clara y se centra en tres áreas: código, biología y seguridad de la red.

El mencionado Terminal-Bench 2.1 pertenece a la dirección del código. Prueba si el modelo puede completar el proceso de desarrollo real en el entorno de línea de comandos, incluida la planificación, las modificaciones repetidas, la llamada a herramientas y la verificación de resultados.

Además del código, OpenAI también destacó un punto de referencia biológico: GeneBench v1.

GeneBench v1 evalúa tareas de genómica y análisis biológico cuantitativo a largo plazo, centrándose en si el modelo puede manejar problemas de análisis que se acerquen más al proceso de investigación científica real.

Según OpenAI, GPT-5.6 Sol funciona mejor que GPT-5.5 en GeneBench v1 yUtilice menos fichas.

La tercera dirección clave es la seguridad de la red. OpenAI afirma que GPT-5.6 Sol es su modelo de seguridad de red más sólido actual, especialmente para tareas de seguridad a largo plazo (incluidas tareas relacionadas con la investigación de vulnerabilidades y la explotación de vulnerabilidades).

Aquí hay un punto de referencia llamado ExploitBench: no es una pregunta y respuesta de seguridad general, sino una evaluación más cercana a los escenarios de explotación de vulnerabilidades.

OpenAI dijo que en ExploitBench,El rendimiento de GPT-5.6 Sol es comparable al de Mythos Preview, pero solo utiliza aproximadamente un tercio de los tokens de salida.

Aunque todavía hay una cierta brecha en el panorama oficial.

Se puede ver que OpenAI enfatizó repetidamente esta vez:Si bien son muy capaces, también son extremadamente eficientes.

Menos tokens de salida significan que el modelo puede ser más conciso y tener menos desvíos al completar tareas similares, y también puede significar que el costo real de la llamada es más controlable.

OpenAI también mencionó otro punto de referencia de ciberseguridad: ExploitGym.

Este punto de referencia fue creado por investigadores de UC Berkeley en colaboración con OpenAI y otros laboratorios de vanguardia. OpenAI dijo que en ExploitGym, los modelos GPT-5.6 Sol, Terra y Luna muestran una mejora significativa en las capacidades de seguridad de la red y, a medida que aumenta la intensidad de la inferencia, el rendimiento será más fuerte.

Esto significa que la mejora de GPT-5.6 no se trata solo de un cuerpo modelo más fuerte, sino también del método de razonamiento. Dele al modelo más tiempo para pensar y déjele hacer una cadena de razonamiento más larga y los resultados serán mejores.

Acerca de la vista previa limitada

Si Sol, Terra y Luna son los cambios superficiales de GPT-5.6, entonces lo que merece más atención es que OpenAI no se ha abierto por completo esta vez.

Según el anuncio oficial, actualmente GPT-5.6 solo estará disponible para una vista previa limitada en el Codex y la API para un pequeño grupo de "socios confiables".

Además, esta vista previa limitada se llevó a cabo “a solicitud del gobierno de los EE. UU.” y la lista de socios que participaron en la vista previa se compartió con el gobierno de los EE. UU.

En los últimos tiempos, el gobierno de EE. UU. ha aumentado significativamente su participación en modelos de IA de vanguardia, especialmente aquellos con códigos, seguridad de red y capacidades de agentes más sólidos.

En junio de este año, el gobierno de Estados Unidos emitió una nueva orden ejecutiva relacionada con la ciberseguridad de la IA, proponiendo establecer un marco voluntario que permita a los desarrolladores de modelos de vanguardia contactar y evaluar el modelo antes de su lanzamiento más amplio.

La interpretación de esta orden administrativa por parte de la comunidad jurídica es que no es una licencia obligatoria de nombre, ni es un sistema de aprobación formal, pero ha establecido un marco institucional para la participación del gobierno en la evaluación previa a la liberación del modelo.

El modelo de lanzamiento de GPT-5.6 Sol de "primera vista previa a pequeña escala y compartir la lista con el gobierno" puede verse como el primer rastro claro de intervención gubernamental en el proceso de lanzamiento del modelo de vanguardia.

La propia OpenAI también explicó en el anuncio que el motivo para adoptar este enfoque es explorar un proceso repetible con el gobierno para respaldar futuros lanzamientos de modelos.

La razón principal detrás de la intervención gubernamental es la seguridad de la red.

En el anuncio oficial, la seguridad de la red ocupa mucho espacio: OpenAI enfatiza que GPT-5.6 Sol es su modelo de seguridad de red más sólido actualmente y puede brindar una ayuda más sólida en tareas a largo plazo como investigación de vulnerabilidades, análisis de vulnerabilidades y defensa de seguridad; por otro lado, dedica mucho espacio a explicar que no ha cruzado su propio umbral cibercrítico.

En el marco de preparación de OpenAI, las capacidades de alto riesgo se dividen en diferentes niveles. Llegar a lo alto significa que el modelo puede amplificar los riesgos graves existentes; Llegar a Crítico significa que el modelo puede generar riesgos nuevos y graves sin precedentes.

OpenAI ha enfatizado repetidamente que GPT-5.6 Sol no llega a Cyber Critical. De hecho, le está diciendo al gobierno, a los clientes y al público: este modelo es muy sólido, especialmente en tareas de seguridad de red, pero no es lo suficientemente fuerte como para completar de forma independiente las cadenas de ataques de red más peligrosas.

Las capacidades de seguridad de la red son como un arma de doble filo. Cuanto más fuertes sean, más podrán ayudar a los defensores a encontrar vulnerabilidades, escribir parches y realizar pruebas de seguridad; pero precisamente porque son tan fuertes, el gobierno también se preocupará por sus abusos.

Aunque OpenAI admitió que esta publicación requiere explorar el proceso con el gobierno, también dejó claro en el anuncio oficial que no creen que este proceso de acceso del gobierno deba convertirse en el mecanismo predeterminado a largo plazo.

El motivo: si se retrasan las herramientas más potentes, los usuarios, desarrolladores, empresas, defensores de redes y socios de todo el mundo se retrasarán a la hora de obtener las mejores herramientas.

En cierto sentido, los modelos de vanguardia están entrando en una nueva fase de lanzamiento.

Cuando las capacidades de los modelos grandes se concentren en áreas como código, biología, seguridad de redes y ejecución de agentes, comenzarán a considerarse como una tecnología que tiene el potencial de impactar la seguridad del mundo real.

Una vez vista la tecnología de esta manera, es difícil que los derechos de publicación permanezcan completamente en manos de la propia empresa.