El nuevo modelo de imagen de código abierto de Alibaba, Qwen-Image-Layered, puede realizar capas de nivel PS

El nuevo modelo de generación de imágenes de código abierto de Alibaba, Qwen-Image-Layered, permite por primera vez la comprensión de capas a nivel de PS y la generación de imágenes dentro del modelo.El nuevo modelo de Qianwen adopta una arquitectura innovadora de desarrollo propio.Puede "descomponer" imágenes en múltiples capas, como un diseñador profesional que usa Pho.La renderización y el retoque en capas de toshop pueden lograr una edición de precisión de imágenes con IA casi de "desviación cero", resolviendo por completo el problema de coherencia de los dibujos generados por IA y acelerando la implementación práctica de modelos grandes en el campo del diseño profesional.

Qwen-Image-Layered rompe el "pensamiento plano" de los grandes modelos visuales convencionales. El modelo establece una "comprensión física" más precisa del mundo real a través de "capas" y "completación", lo que permite a la IA pasar de un plano "mirar imágenes y hablar" a una "reconstrucción espacial" real.

En el campo actual de los grandes modelos visuales, la edición de coherencia de imágenes es siempre un desafío fundamental.Las imágenes generadas por IA son creativas pero difíciles de editar, principalmente porque los modelos grandes entienden las imágenes como planas, con un montón de píxeles estrechamente acoplados, y no pueden percibir las relaciones físicas como la distancia y la oclusión de los objetos en la imagen como los humanos.

Por lo tanto, dibujar y editar un modelo grande es como dibujar cartas para "abrir una caja ciega": por ejemplo, quieres mover el gato en la pintura 10 centímetros hacia la izquierda, pero la IA no tiene idea de qué habrá en el fondo después de que el gato se mueva hacia la izquierda, por lo que solo puede regenerarlo nuevamente, y tanto el gato como el fondo cambiarán.

Este tipo de aleatoriedad de que "un cabello toca todo el cuerpo" significa que el dibujo con IA solo puede usarse como referencia en campos profesionales como el diseño de publicidad comercial, el diseño de interfaz de usuario y el posprocesamiento de películas y televisión que buscan la máxima precisión y no pueden reemplazar verdaderamente las herramientas profesionales.

La aparición de Qwen-Image-Layered significa que los modelos visuales a gran escala pasan de la "predicción de píxeles" a la "reorganización estructural".El equipo de Qianwen desarrolló por su cuenta una nueva codificación RGBA-VAE, que introdujo el "canal alfa" que representa la capa de transparencia en la imagen RGB tradicional, dando al modelo el concepto de capa..

Al mismo tiempo, el nuevo modelo adopta la innovadora arquitectura VLD-MMDiT, combinada con la exclusiva "codificación de posición 3D a nivel de capa", lo que permite a la IA "rellenar el cerebro" automáticamente la textura de fondo de las partes ocluidas, logrando una comprensión y generación más profunda de capas y espacio.

Se entiende que para entrenar esta habilidad, el equipo de Qianwen extrajo lógica de capas real de una gran cantidad de archivos profesionales de Photoshop (PSD), de modo que la IA tiene el "pensamiento en capas" de los diseñadores profesionales desde su nacimiento.

Diagrama de arquitectura del modelo Qwen-Image-Layers

Los conocedores de la industria señalaron que el nuevo modelo de Qianwen traerá cambios sustanciales a la industria creativa. El dibujo con IA ya no es una pieza rígida, sino una biblioteca de materiales viva e infinitamente ajustable.

La edición de imágenes ya no requiere un recorte manual complejo y sofisticado, pero la IA logra de forma nativa la "editabilidad inherente". Los diseñadores, animadores y productores de cine y televisión pueden cambiar, escalar o volver a dibujar componentes de capas específicas mientras mantienen el fondo o el tema completamente sin cambios, mejorando significativamente la eficiencia de producción de la creación de contenido digital.

Se entiende que Qwen-Image-Layered ha sido de código abierto en Magic Community y HuggingFace, y los desarrolladores y empresas pueden descargarlo de forma gratuita para uso comercial.

Hasta la fecha, Alibaba ha abierto casi 400 modelos Qianwen, con descargas globales que superan los 700 millones y más de 180.000 modelos derivados, lo que lo convierte en el modelo de código abierto número uno del mundo. Tongyi Large Model ha atendido a más de 1 millón de clientes. Tongyi ocupa el primer lugar en el mercado de llamadas de modelos grandes a nivel empresarial de China y es el modelo grande más elegido por las empresas chinas.