En solo dos años, la forma en que diferenciamos entre imágenes creadas por humanos y imágenes generadas por IA se está volviendo rápidamente obsoleta. En el pasado, los modelos de generación de imágenes eran propensos a "volcarse" una vez que se les pedía que generaran imágenes con elementos con mucho texto, como menús. Por ejemplo, cuando uno de los primeros modelos generaba el menú de un restaurante mexicano, "inventaba" nombres de platos comunes con errores ortográficos como "enchuita", "churiros", "burrto" y "margartas", que no eran confiables a primera vista.

Ahora, cuando se utiliza el nuevo ChatGPT Images 2.0 para generar un menú mexicano, los resultados proporcionados por el modelo son suficientes para usarse directamente en la tienda, y es difícil para los clientes comunes ver los defectos en el texto mismo. Lo único que puede hacer dudar a la gente es el nivel de precio del "ceviche (ceviche) a $13,50", lo que hará dudar un poco sobre la calidad del pescado. A modo de comparación, el autor también citó un ejemplo de un menú generado con DALL·E 3 hace dos años (en ese momento, ChatGPT no tenía capacidades integradas de generación de imágenes). La inestabilidad de la presentación del texto en el modelo antiguo contrasta marcadamente con el nuevo modelo.
Los generadores de imágenes de IA han tenido durante mucho tiempo un mal desempeño en ortografía, y la razón principal está relacionada con la ruta de la tecnología convencional. En el pasado, los modelos de imágenes utilizaban principalmente modelos de difusión para completar la tarea de generación "reconstruyendo" gradualmente imágenes en ruido. El fundador y director ejecutivo de Lesan AI, Asmelash Teka Hadgu, dijo en una entrevista con TechCrunch en 2024 que el modelo de difusión esencialmente restaura una imagen general, y el texto de la imagen generalmente solo ocupa un área de píxeles muy pequeña, por lo que el modelo prefiere priorizar el aprendizaje de patrones visuales que cubran un área más grande en lugar de formas de texto finas. En este contexto, los investigadores han comenzado a explorar nuevos mecanismos, como los modelos autorregresivos, para hacer que la generación de imágenes se parezca más a grandes modelos de lenguaje, construyendo imágenes prediciendo y comprendiendo estructuras gradualmente.

En cuanto a la arquitectura subyacente utilizada por ChatGPT Images 2.0, OpenAI se negó a responder directamente a preguntas relevantes en una conferencia de prensa esta semana. Sin embargo, OpenAI enfatizó en su introducción que el nuevo modelo tiene las llamadas "capacidades de pensamiento" y puede recuperar información en línea, generar múltiples imágenes a partir de un solo mensaje y revisar su propia salida. Esto significa que Images 2.0 no es sólo una única "imagen de salida", sino que puede generar múltiples materiales en torno a la misma idea creativa, como materiales de marketing de diferentes tamaños, gráficos publicitarios adaptados a múltiples plataformas e incluso un conjunto de guiones gráficos de cómics de múltiples fotogramas.
OpenAI también dijo que el nuevo modelo ha logrado avances significativos en la representación de texto no latino, incluidas capacidades mejoradas de representación de texto en idiomas como japonés, coreano, hindi y bengalí. La fecha límite de conocimiento del modelo es diciembre de 2025, lo que también significa que cuando se trata de mensajes sobre noticias recientes o los últimos eventos, puede haber limitaciones de puntualidad en el contenido que genera. En el comunicado de prensa oficial, OpenAI describió Images 2.0 como una mejora sin precedentes en "detalle y realismo", enfatizando que puede concebir e implementar imágenes más complejas, seguir instrucciones con precisión y retener los detalles solicitados por los usuarios. Especialmente en áreas donde los modelos de imágenes anteriores eran más propensos a "colapsar": texto pequeño, íconos, elementos de interfaz de usuario, composición densa y delicadas restricciones de estilo, Images 2.0 puede generar de manera estable la resolución más alta de 2K.
Esta mayor capacidad también conlleva una compensación de velocidad. Se necesita más tiempo para generar un cómic complejo de varias historias o material de varios tamaños que escribir una pregunta directamente en ChatGPT para obtener una respuesta de texto. Sin embargo, a juzgar por el rendimiento actual del producto, normalmente solo lleva unos minutos completar tareas de imágenes tan complejas, que ya pueden cubrir la mayoría de los escenarios de aplicación prácticos.
En términos de acceso, OpenAI dijo que todos los usuarios de ChatGPT y Codex obtendrán acceso gradualmente a Images 2.0 a partir del martes. Los usuarios que pagan en diferentes niveles pueden desbloquear resultados más "avanzados" en términos de calidad de generación y complejidad de salida, como mayor resolución, composiciones más complejas o más versiones de salida de imágenes. Al mismo tiempo, OpenAI también abrirá API relevantes para los desarrolladores a través de gpt-image-2, con precios basados en la calidad y resolución de las imágenes generadas, para que las aplicaciones de terceros puedan integrar esta capacidad de generación de imágenes en sus propios productos.
ChatGPT Images 2.0 refleja un gran avance en la comprensión del texto y las capacidades de composición tipográfica del modelo de generación de imágenes, convirtiendo el área de texto que alguna vez se consideró un "punto débil" en un enlace de diseño que se puede entregar de manera segura a la IA para su procesamiento. A medida que OpenAI lanza una interfaz totalmente abierta y comercial, se espera que esta generación de modelos gráficos vicencianos entre rápidamente en el proceso de producción de diseño de marketing, interfaz de usuario de productos, creación de juegos y cómics y otras industrias, borrando aún más la línea entre el contenido visual humano y de IA.