¡El conocido OpenAI ha vuelto! Temprano en la mañana, Ultraman dirigió personalmente al equipo e inició una transmisión en vivo en línea de 20 minutos, rompiendo el silencio de varios días. OpenAI finalmente lanzó el rumoreado ChatGPT Images 2.0, abriendo oficialmente una nueva era en la generación de imágenes.


Imágenes 2.0 es un salto cualitativo. Ha logrado grandes avances en la comprensión precisa de instrucciones largas, la colocación y claridad precisas de la relación entre objetos y la representación de texto denso.

Lo más importante es que es el primer modelo de imagen con "capacidad de pensamiento" que puede buscar información en tiempo real y realizar autoverificaciones secundarias en Internet.

También puede producir ocho imágenes con estilos coherentes a la vez, admitiendo una resolución ultra clara de hasta 2K.


Digámoslo de esta manera, el nacimiento de Imágenes 2.0 ha redefinido el dominio de la generación visual——

Precisión a nivel de píxel: texto pequeño, íconos, elementos de la interfaz de usuario y otros detalles complejos se generan con un solo clic, lo que admite salidas en tamaño completo de 3:1 a 1:3;

Cambio cualitativo en el multilingüismo: los caracteres chinos, japoneses, coreanos y otros caracteres no latinos se traducen con precisión, no sólo las palabras están escritas correctamente, sino que las oraciones también son fluidas y coherentes;

Estilo maduro: fotorrealista, capaz de manejar lenguajes visuales como fotogramas de películas, pixel art, cómics, etc.;

Puede pensar: el primer modelo de imagen con capacidades de razonamiento, capaz de realizar búsquedas en línea, resultados de autoevaluación y conocimientos actualizados a diciembre de 2025.






En la última lista de Arena, Images 2.0 encabezó la lista de generadores de imágenes de IA globales. La fuerza superó críticamente a la versión GoogleNano Banana 2/Pro, liderando por 242 puntos.

Ocupa el primer lugar en las siete categorías de imágenes vicencianas.



Lo más despiadado es que puede lograr una generación a nivel de píxeles.

En una imagen de una montaña de arroz generada durante la transmisión en vivo, en realidad se grabó un grano de arroz con la fuente "Imagen GPT 2".


Ultraman también mostró más imágenes cómicas de GPU con el administrador de gráficos de 4o, Gabriel Goh.




Los internautas empezaron a utilizarlo uno tras otro y una vez más quedaron sorprendidos por la fuerza de Imágenes 2.0.

Algunos incluso dijeron: "¡OpenAI finalmente vuelve a liderar el campo de la generación de imágenes"!




Consagrar dioses directamente en chino

El propio chiste de OpenAI "te atrapa constantemente"

En el modelo de imagen anterior, el rendimiento del idioma de los alfabetos inglés y latino era aceptable, pero cuando se trataba de caracteres chinos, japoneses y coreanos, comenzaba a "dibujar caracteres fantasmales".

Esta vez, la demostración china publicada en el blog oficial se volvió viral.

El científico investigador de OpenAI, Chen Boyuan, apareció en persona (escrito rápidamente por él mismo) y generó una página completa de cómics en color chinos, contando la historia de su trabajo en la optimización de la representación de texto chino ChatGPT Image 2 en OpenAI.


Esta imagen demuestra tres cosas al mismo tiempo: el cambio cualitativo en las capacidades de representación de texto chino, el control de precisión de tamaños de fuente extremadamente pequeños y la capacidad de generar cómics complejos de varios paneles a la vez.

La caricatura está dividida en cinco filas. La primera fila muestra a Chen Boyuan inmerso en su trabajo frente a la computadora. Hay té con leche de burbujas al fondo y un plátano está pegado a la pared con un trozo de cinta adhesiva (un homenaje a la famosa escena en el círculo artístico).

La segunda fila es un cartel infográfico multilingüe dibujado a mano que generó para su ciudad natal de Wuxi, con todos los caracteres chinos densamente representados correctamente.

La tercera fila muestra la emoción colectiva del equipo tras ver el efecto.

La escena en la cuarta fila cambió. Chen Boyuan estaba descansando en su teléfono y recibió un mensaje de texto traducido de Ultraman, felicitando al equipo por sus resultados de renderizado en chino.

Luego vino el evento principal.

En la quinta fila, Chen Boyuan vio la imagen de felicitación generada por Ultraman, con las palabras "Te atraparé constantemente" escritas en el centro.

Todo el que entiende entiende.


En las conversaciones chinas, GPT siempre dice "Te atraparé constantemente" y "Tus sentimientos son razonables". Este olor graso y sincero de asesoramiento psicológico estadounidense ha sido criticado locamente por los usuarios chinos durante más de medio año.

En los cómics, Chen Boyuan rompió la defensa en el acto y gritó enojado en estilo cómico: "¡Dios mío! ¡Ha aprendido a atrapar de nuevo!". Los compañeros de equipo a su lado se convirtieron en cabecitas con sudor frío y dijeron débilmente: "¡Estamos trabajando duro para repararlo!".

La máxima puntuación para esta ola de autodesprecio. (Cabeza de perro manual)


Además del chino, OpenAI también lanzó cómics de aventuras juveniles con diálogos japoneses completos, librerías indias que cubren portadas de libros en nueve idiomas, incluidos hindi, bengalí y telugu, y anuncios de alojamiento Hanok de alta gama en coreano.

El lenguaje ya no es un “ciudadano de segunda clase” en la generación de imágenes.



Generación de nivel de píxeles

Un gran salto de GPT-3 a GPT-5

ChatGPT Images 2.0 puede considerarse el próximo hito en la generación de imágenes de OpenAI.

Durante la transmisión en vivo, Ultraman lo llamó: "Se siente como un salto directo de GPT-3 a GPT-5, todo a la vez".

Sube una foto de cuatro personas y ChatGPT mostrará la portada de una revista. El diseño de la página y la disposición del texto son muy particulares.

Además, el cartel contiene una gran cantidad de detalles, el procesamiento de personajes pequeños y la consistencia de los rostros de los personajes, lo que da a la gente una sensación de "boy band".



En términos de detalles, la salida ChatGPT logra completamente un efecto "fotográfico", tan realista que nadie puede decir que fue generado por IA.

Por ejemplo, en la imagen siguiente, nos remontamos a 2015, el año en que se estableció OpenAI por primera vez. El entorno de iluminación y la copia PPT de la sala de conferencias son impactantes.


Lo que realmente sorprendió al público fue una vista panorámica de 360° del alunizaje del hombre.

Al colocar la imagen generada por ChatGPT en el visor panorámico, puede lograr el siguiente efecto. La posición del sol, la dirección de la sombra y algunos detalles son claramente visibles.


En la demostración oficial, hay una captura de pantalla de la ventana ChatGPT en el navegador macOS.

Las ventanas se acumulan, las terminales se abren en segundo plano, el escritorio está desordenado y hay tantos detalles visuales que el efecto resultante es casi exactamente como una captura de pantalla real.


La precisión de renderizado que alcanza este nivel muestra que el control del modelo sobre cada píxel de la imagen ha superado un punto crítico.

Fotorrealismo

Las imágenes generadas por IA finalmente ya no parecen IA

La fidelidad estilística es otro gran salto adelante.

En el pasado, las imágenes generadas por IA siempre tenían una "sensación de IA" indescriptible. La piel era demasiado suave, la luz demasiado uniforme y la composición demasiado perfecta. A simple vista era obvio que no fueron tomadas por personas reales.

Imágenes 2.0 va en dirección contraria y empieza a aprender a ser “imperfecto”.

Hay un conjunto de instantáneas en la demostración oficial. Tienen la textura de una película de 35 mm, con granulosidad visible. La composición está ligeramente descentrada y la ropa y el cabello ondean con el viento.

Si no te dijeran que fue generado por IA, pensarías que fue el resultado de que un fotógrafo presionó casualmente el botón del obturador al costado de la carretera.


También hay un conjunto de fotografías estilo cámara desechable que simulan escenas en las salas de informática de las escuelas secundarias estadounidenses a principios de la década de 2000, con estudiantes acurrucados frente a monitores CRT beige usando ChatGPT.

Sobreexposición de flash, ligero desenfoque de movimiento y un sello de fecha naranja con "02 18 04" impreso en la esquina, todas las "imperfecciones de la era cinematográfica" se reproducen con precisión.


En términos de diversidad de estilos, Images 2.0 también amplía la brecha.

La relación de aspecto ahora admite un ancho máximo de 3:1 y un máximo de 1:3. Para este propósito, OpenAI ha colocado especialmente una versión horizontal de una pintura de paisaje tradicional china de pergamino largo, con la mancha de pluma y tinta y el espacio en blanco.

Carteles de películas francesas de la Nueva Ola de la década de 1960, marcapáginas Art Déco e ilustraciones de personajes de anime, cada lenguaje visual mantiene un alto grado de coherencia estilística, en lugar de simplemente "parecerse un poco".




modelo de imagen de pensamiento

Genera ocho imágenes consecutivas a la vez

Durante la transmisión en vivo, Gabriel Goh, jefe de imágenes de ChatGPT, dijo que Imágenes 2.0 ha lanzado un total de dos modos:

Modo instantáneo

Modo de pensamiento

Las actualizaciones más subversivas están todas ocultas en el "modo de pensamiento".

Al elegir un modelo de pensamiento en ChatGPT, Images 2.0 ya no es solo un renderizador de "tú hablas y yo dibujo", sino que se convierte en un compañero de pensamiento visual.

Dedica más tiempo a comprender su intención, buscar en la web información en tiempo real y razonar sobre la estructura de la imagen antes de poner el lápiz sobre el papel.

Más importante aún, en el modo de pensamiento, puede generar hasta ocho imágenes a la vez con estilos coherentes, personajes consistentes y contenido progresivo.

Simplemente sube una foto de tu rostro y ChatGPT te proporcionará inmediatamente ocho conjuntos de conjuntos de verano. Elija uno de los conjuntos y se generarán más detalles de la ropa desde diferentes ángulos.



En esta tarea, ChatGPT invoca dos tipos diferentes de "inteligencia visual":

La primera es la capacidad de "comprensión visual", que requiere "ver" fotografías verdaderamente. Comprenda la apariencia de una persona y luego planifique un atuendo apropiado.

Otra dimensión es la capacidad de “generación visual”. Requiere transformar la distribución de la ropa planificada en una imagen coherente y organizada.

En el pasado, si querías crear un conjunto de materiales para redes sociales, tenías que generarlos uno por uno y unirlos tú mismo. Ahora, con un mensaje, cuatro tamaños de Twitter, Instagram Stories, Instagram Feed y LinkedIn están disponibles a la vez, con un tono y estilo de composición unificados.

La demostración oficial muestra el material publicitario de una tienda de matcha "kizuki" de Brooklyn, una imagen de matcha de fresa helado al sol, estética urbana con minimalismo japonés y cuatro tamaños de plataformas sociales en un solo paso.


También hay una demostración de un póster de un artículo académico. Puede cargar el PDF directamente. El modelo extrae automáticamente gráficos, datos y estructuras clave y los compone en un póster horizontal.


Vale la pena mencionar que después de activar el modo de pensamiento en Images 2.0, también puedes buscar información directamente en línea.

El equipo reveló que el “DuckTape” que se probó a ciegas en Arena hace unos días es el Images 2.0 de hoy.

Luego, pidieron a Images 2.0 que recopilara comentarios de los internautas y creara una imagen. Inesperadamente, el modelo también generó un "código QR" que se puede escanear directamente.



ChatGPT y Codex están completamente abiertos

A partir de hoy, todos los ChatGPT y Codex pueden utilizar ChatGPT Images 2.0.

La función de generación de imágenes con el proceso de "pensamiento" se ha abierto para los usuarios de ChatGPT Plus, Pro y Business. El modelo subyacente gpt-image-2 también se lanzó en la API.


En términos de precios, ChatGPT Images 2.0 es más fuerte, mientras que los precios actuales de entrada/salida no han aumentado.


Para los usuarios normales, las tareas de ilustrar presentaciones, carteles de redes sociales y tarjetas de promoción de productos, que antes tardaban medio día en abrirse en Photoshop, ahora se pueden realizar con un solo mensaje.

Para los desarrolladores y las empresas, los flujos de trabajo visuales que requieren mucho trabajo manual, como publicidad localizada, infografías multilingües, contenido educativo y herramientas de diseño, ahora se pueden automatizar en lotes a través de API.

Codex incluso integra la generación de imágenes en el espacio de trabajo. El equipo de diseño puede crear planes de interfaz de usuario, comparar opciones y convertir productos en el mismo entorno sin cambiar de herramienta.

¿Momento de iPhone generado por imagen?

Mirando hacia atrás, desde DALL·E hasta Midjourney y Stable Diffusion, la generación de imágenes de IA siempre ha estado en un estado de "suficiente pero no muy bueno".

La representación del texto se anula, se amplían varios idiomas, el estilo es el mismo y la composición es IA de un vistazo. Cada uno de estos puntos débiles ha disuadido a las personas que quieren utilizar imágenes de IA en escenas serias.

Images 2.0 compensa todas estas deficiencias de una sola vez y también agrega capacidades de pensamiento y la capacidad de generar múltiples imágenes a la vez.

Si bien todavía está lejos de ser "perfecto", puede ser el primer modelo de imagen de IA que hace que los diseñadores, especialistas en marketing y creadores de contenido piensen: "Realmente puedo usar esto en mi trabajo".

Ahora, es posible que los diseñadores tengan que repensar dónde están sus fosos.

Referencias:

https://x.com/OpenAI/status/2046661795327459677

https://x.com/OpenAI/status/2046670977145372771

https://openai.com/index/introduciendo-chatgpt-images-2-0/

https://x.com/sama/status/2046672912833458597