Hoy, Alibaba lanzó oficialmente Qwen-Image-2.0, un modelo de edición y generación de imágenes de nueva generación.Como base del modelo de generación de imágenes del modelo grande de Qianwen, Qwen-Image-2.0 integra la generación y edición de imágenes. Obtuvo 1029 puntos en la evaluación de generación de imágenes AI Arena, superando a modelos como Seedream4.5 y Flux2-Max, y solo superado por Google Nano Banana Pro y GPT Image1.5.
Qwen-Image-2.0 admite entrada de texto ultralargo de token de 1K y alta resolución de 2K. Puede representar con precisión instrucciones complejas y generar fácilmente PPT e infografías profesionales. La calidad es comparable a la de los fotógrafos profesionales. Al mismo tiempo, Qwen-Image-2.0 tiene capacidades de representación de caracteres chinos extremadamente sólidas y el texto completo de cientos de textos antiguos se puede representar casi por completo en la imagen.

Qwen-Image-2.0 es una nueva actualización basada en los dos modelos principales de Qwen-Image y Qwen-Image-Edit. Por primera vez, la generación y edición de imágenes se unifican en un solo modelo. Con una arquitectura de modelo más ligera, el rendimiento de la generación y modificación de imágenes mejora enormemente.
La textura de las imágenes generadas por Qwen-Image-2.0 es particularmente delicada y abarca desde las arrugas de un anciano hasta la inmensidad del universo. Las imágenes de uso común de personas, naturaleza, edificios, etc. generadas por el modelo son extremadamente realistas.
En la evaluación autorizada AI Arena, el nuevo modelo de Qianwen obtuvo una puntuación de 1029 en generación de imágenes, ocupando el tercer lugar; obtuvo una puntuación de 1034 en edición de imágenes, sólo superada por Nano Banana Pro.

En términos de representación de caracteres chinos, Qwen-Image-2.0 funciona extremadamente bien. No solo puede representar con precisión caracteres chinos en una variedad de fuentes, sino que también puede escribir muchos y con precisión, y el efecto es mejor que Nano Banana Pro.
El nuevo modelo de Qianwen amplía las palabras de indicación de entrada a tokens de 1K, que pueden describir tareas en detalle, lograr una representación de texto más profesional y manejar fácilmente imágenes complejas como PPT profesionales, carteles avanzados y cómics de múltiples fotogramas. Por ejemplo, los cientos de palabras de las ilustraciones de texto completo de "El prefacio de la colección Lanting" están casi completamente representadas en pequeñas fuentes de escritura regulares, y los PPT complejos con ilustraciones en formato de ensayo se generan en lenguaje natural.

Basado en el modelo Qwen-Image-2.0, los usuarios pueden colaborar con la IA para crear imágenes más ricas y prácticas, como un diagrama de flujo para generar el pollo Kung Pao en una oración, una guía de viaje de dos días a Hangzhou, una imagen grupal de cómics de múltiples cuadros de 4x6, la imagen de un libro ilustrado para niños, un cartel de película de estilo realista, una jungla verde extremadamente realista, etc.;
Al mismo tiempo, los usuarios también pueden cargar varias imágenes para editarlas y generar selfies con múltiples gestos, emoticones con personas reales, fotografías realistas con IA de dos personas, poemas con imágenes, etc.
