El día de su liberación, las tres listas fueron eliminadas. Dentro de las 12 horas posteriores a que GPT Image 2 estuviera en línea, las tres sublistas de Texto a imagen, Edición de una sola imagen y Edición de varias imágenes encabezaron la lista. Palabras oficiales de Arena: "un barrido limpio".



En la lista principal de Wenshengtu, GPT Image 2 obtuvo 1512 puntos y Nano Banana 2 obtuvo 1271 puntos. La brecha de 241 puntos es la más grande en la historia de Arena.

"Ningún modelo ha dominado jamás Image Arena con esta disparidad", dijeron los funcionarios de Arena.

En todos los enfrentamientos de prueba a ciegas en Image Arena, la tasa de victorias de GPT Image 2 fue del 93%: se emparejaron 100 imágenes en una prueba a ciegas y 93 personas eligieron la de OpenAI.

"Si piensas en DALL-E como pinturas rupestres y en Images 1.0 como arte antiguo, entonces Images 2.0 es el Renacimiento".

OpenAI presentó Images 2.0 en la inauguración de la conferencia, y Ultraman incluso lo llamó una actualización intergeneracional:

Esto parece saltar de GPT-3 a GPT-5 de repente.


https://www.youtube.com/watch?v=sWkGomJ3TLI

El documento oficial de la API de OpenAI ofrece una evaluación superlativa de Images 2.0.


https://developers.openai.com/api/docs/models/gpt-image-2

Pero la verdadera historia no está en los datos.

colchaGoogleprensamedio año

OpenAI finalmente regresa

El tiempo se remonta a agosto de 2025.

Google lanzó Nano Banana. Este modelo de generación de imágenes integrado en Gemini explotó instantáneamente en el lado C.

En el informe financiero del tercer trimestre, tres meses después, el director ejecutivo de Google, Sundar Pichai, reveló personalmente una serie de cifras: la actividad mensual de Gemini aumentó de 450 millones en julio a 650 millones en octubre.

Josh Woodward, director de Google Labs, afirmó que gran parte de este crecimiento proviene del auge de la generación de imágenes impulsado por Nano Banana.

En noviembre, Google volvió a lanzar Nano Banana Pro. La capacidad de representación de texto es asombrosa, las imágenes de IA pueden escribir palabras correctamente por primera vez y OpenAI ha sido superado en el lado C.

El 18 de noviembre, Google hizo otro movimiento. Gemini 3 alcanzó la cima del LM Arena inmediatamente después de su lanzamiento, con 1501 puntos, convirtiéndose en el primer modelo de vanguardia en superar los 1500 puntos.

A finales de este mes, Altman emitió un memorando interno de "código rojo" para toda la empresa.

Según The Information, Altman dijo en privado a los empleados que Gemini 3 podría traer obstáculos económicos a OpenAI. Posteriormente, Yahoo Finance reveló: Bajo el código rojo, OpenAI suspendió la investigación y el desarrollo de otros productos como AI Agent, y todos los recursos se asignaron a ChatGPT.

En diciembre, OpenAI lanzó GPT Image 1.5. Arena ocupó el primer lugar, pero el lado C no logró detonar.

En febrero de 2026, Google hizo otro movimiento, apareció Nano Banana 2 y Arena volvió a tomar la delantera.

OpenAI vuelve a perder.

No fue hasta el 21 de abril, cuando GPT Image 2 estuvo en línea, que OpenAI logró una ventaja y la recuperó.

La IA del dibujo se redefinirá

¿Por qué GPT Image 2 lidera por 241 puntos?

La respuesta central se encuentra en el nivel arquitectónico.

GPT Image 2 no es un modelo de difusión de la generación de Difusión Estable.

El director de investigación de OpenAI, Boyuan Chen, lo llama un "modelo generalista" que está "renovado desde cero" (reconstruido desde cero). El nombre interno de OpenAI es "versión de imagen de GPT".

Sin embargo, Chen se negó a admitir públicamente si se trataba de una arquitectura de difusión o autorregresiva durante la rueda de prensa.

El mundo exterior generalmente lo entiende como un "sistema de generación de imágenes con planificación inferencial": planificar antes de pintar y luego escribir. Ésta es la mayor diferencia entre GPT Image 2 y el modelo de imagen de la generación anterior.

OpenAI le dio una nueva etiqueta en su descripción oficial: el primer modelo de imagen con capacidades de pensamiento nativo.

Piensa antes de dibujar, comprueba después de dibujar, busca información en línea cuando sea necesario y produce 8 imágenes coherentes a la vez.

Esto no es un pincel, es un asistente visual pensante.

Los datos desglosados ​​del ranking de arenas muestran:

En la categoría de representación de texto (Representación de texto), GPT Image 2 ha aumentado en 316 puntos en comparación con la generación anterior; la animación de dibujos animados y los retratos han aumentado cada uno en 296 puntos; las tres categorías de producto/3D/realistas tienen un rango general de +247 a +277.

La representación de texto fue un problema que Nano Banana Pro resolvió por primera vez en noviembre de 2025, pero la precisión en ese momento era del 94%. GPT Image 2 lo llevó al 99%.


Demostración en vivo en la conferencia OpenAI: Deje que la Imagen 2 de GPT dibuje un plato de arroz, en el que solo un grano de arroz tiene escrito el nombre del modelo.

Específicamente para la demostración de habilidades, el presidente de OpenAI, Greg Brockman, hizo una demostración en su cuenta X.

El primer caso es la restauración de fotografías antiguas.


Las viejas fotografías familiares descoloridas y amarillentas se pueden transformar instantáneamente en versiones en color de alta definición con solo una palabra.

La frase "entradas de imágenes de alta fidelidad" en el documento API oficial de OpenAI se refiere a la capacidad del modelo para retener los detalles de la imagen original: el extremo de entrada puede leer con precisión los detalles de fotos antiguas descoloridas, dañadas y borrosas, y el extremo de salida puede volver a representar una versión clara.

En el segundo caso, Brockman envió un conjunto de imágenes de prueba del usuario @doodlestein: usando la misma palabra compleja para pedirle a la Imagen 2 de GPT que dibuje un diagrama de explicación matemática.

Comentó que GPT Image 2 puede generar imágenes con diferentes estilos incluso para palabras complejas.



@doodlestein Prueba GPT Imagen 2 Dibuje un diagrama explicativo de álgebra lineal usando la misma palabra. El modelo dibuja 4 versiones completamente diferentes de una vez: la misma enseñanza de Mona Lisa + vector propio, y la composición, combinación de colores y densidad de información de cada versión son completamente diferentes.

El valor real de este caso no es "poder dibujar gráficos matemáticos", sino resolver un problema importante en la generación de gráficos de IA en los últimos dos años: salida única y poca controlabilidad de las variantes.

GPT Image 2 hace que "un mensaje me brinde 4 direcciones completamente diferentes" sea una capacidad a nivel de producto por primera vez.

Un probador senior de LM Arena en la industria comentó:

La brecha entre GPT Image 2 y Nano Banana Pro es tan grande como la brecha entre Nano Banana Pro y DALL-E.

Ha pasado toda una generación.


Imagen GPT 2 Página de cómic estilo manga generada por el modo Pensamiento: a partir de una simple palabra, el modelo mantiene la coherencia de los personajes y presenta tramas de varios cuadros.

DALL-E retirado

Adobe Canva está arrinconado

El día del lanzamiento, la integración de herramientas posteriores fue más rápida de lo que esperaba la comunidad tecnológica.

Figma, Canva, Adobe Firefly, fal y Hermes Agent se integraron el 21 de abril.

El precio de las API es aún más peligroso:

Las imágenes de alta calidad cuestan 0,21 dólares por imagen; ChatGPT Plus cuesta $20 al mes y la generación de imágenes está incluida en el paquete.

Detrás de esta diferencia de precios, puede provocar la mayor reestructuración industrial en la industria de generación de imágenes en 2026.


Imagen fotorrealista generada por GPT Imagen 2. Costa, cielo nublado, autos retro, textura de película: este tipo de efecto visual que solía requerir que los fotógrafos profesionales tomaran fotografías al aire libre y realizar posproducción ahora se puede lograr con una API de $0,21. El investigador de OpenAI, Gabriel Goh, dijo que el fotorrealismo es la capacidad que más le entusiasma del modelo.

El 12 de mayo, DALL-E 2 y DALL-E 3 fueron oficialmente retirados.

Son los fundadores de toda la revolución visual de AIGC en 2022. Tres años después, el propio sucesor de OpenAI la pasó a la historia.

OpenAI mencionado en las notas de la versión oficial:

Las imágenes no son decoración, son lenguaje. Una buena imagen hace lo mismo que una buena frase: selecciona, ordena, revela.

Esto representa un cambio en la filosofía del producto.

Por supuesto, no hay voces en contra. ZDNet descubrió en pruebas reales que GPT Image 2 no podía reproducir con precisión los logotipos de las marcas, e incluso el propio logotipo de ZDNet estaba distorsionado.

Nano Banana 2 todavía tiene ventajas en cuanto a realismo de retrato y consistencia de múltiples referencias.

Aunque GPT Image 2 aún no es perfecta, el patrón de seguimiento ha cambiado.

La era del renderizado ha terminado

La era del razonamiento acaba de comenzar

Google incorpora la inferencia a los modelos de imágenes. OpenAI conecta herramientas de imágenes en modelos de inferencia. La brecha Elo de 242 puntos mide la diferencia de arquitectura entre los dos.

Este comentario de implicator.ai divide las dos eras de la generación de imágenes.

2022 a 2025 es la era del renderizado.

DALL-E, Midjourney, Stable Diffusion, todos apuntan a "pintar como". El modelo es el pincel, el usuario es el pintor y el mensaje es el dibujo.

La imagen 2 de GPT representa una era de razonamiento.

El modelo piensa antes de escribir, puede buscar, autoevaluarse y completar tareas. No es un pincel, es un asistente que puede dibujar.

Lo que realmente merece atención con el lanzamiento de GPT Image 2 es el hecho de que la generación de imágenes está avanzando hacia el "pensamiento".

A corto plazo, Black Forest Labs (Flux 2) puede estar en el mayor problema.

Kingy AI declaró sin rodeos: Como fabricante que prioriza la difusión, todo el proceso técnico de Flux 2 está arquitectónicamente en conflicto con la línea de razonamiento "token por token".

Ya sea fusionar o reescribir, no existe una tercera vía.

A medio plazo, Google podría contraatacar el próximo trimestre. Nano Banana 3, o Imagen-Reason, no estará disponible por mucho tiempo.

A largo plazo, el impacto de esto va mucho más allá de la generación de imágenes.

Cuando la IA comience a utilizar el "pensamiento" para producir imágenes, vídeos, audios y códigos, todo el paradigma de la IA generativa cambiará en consecuencia.

Cuando Ultraman escribió "código rojo" en su memorando en diciembre del año pasado, probablemente no esperaba regresar a la cima de Arena de esta manera cinco meses después.

Pero el significado real de este contraataque puede no ser que OpenAI derrotó a Google, sino que OpenAI reescribió las reglas de la vía de generación de imágenes.


Lista de edición de una sola imagen de Arena.AI (Image Edit Arena): GPT Image 2 (mediana) continúa encabezando la lista con más de 1510 puntos. El segundo, tercer, cuarto y quinto lugar están ocupados por el propio modelo de OpenAI y la serie Google Gemini. https://arena.ai/leaderboard/image-edit

¿Cuándo dará Google su próximo golpe? Esta cuestión determinará la dirección que tomará el panorama de la IA en la segunda mitad de 2026.

Y antes de que se lance ese golpe, nadie sabe cuánto tiempo permanecerá GPT Image 2 en la parte superior de Arena.

Referencias:

https://x.com/gdb/status/2048449695622586576

https://arena.ai/leaderboard/image-edit