Tres meses después del anuncio, el popular modelo vicenciano Midjourney ha lanzado finalmente su última versión. El 21 de diciembre, hora local, Midjourney anunció en Discord el lanzamiento de la versión beta de su última versión, V6, que actualmente se encuentra en la etapa de prueba alfa. A juzgar por una gran cantidad de ejemplos de usuarios, V6 es muy bueno en el manejo de imágenes realistas y pinturas abstractas, y su efecto es tan bueno como el de los diseñadores y fotógrafos.
Midjourney posiciona al V6 como una innovación importante. Su director ejecutivo, DaVidHolz, dijo que V6 es en realidad el tercer conjunto de modelos entrenados desde cero en un súper clúster de IA. Todo el ciclo de desarrollo duró nueve meses. "Las imágenes generadas por este conjunto de modelos son mucho más realistas que cualquier versión que hayamos publicado antes". Según la introducción oficial, los principales cambios de V6 son una mejor calidad de imagen, una comprensión semántica más sólida, la capacidad de incrustar texto, acomodar más palabras breves, mayor coherencia y un conocimiento del modelo más rico.
Según las pruebas de los usuarios, V6 ahora admite palabras de más de 350 caracteres e incluso puede comprender diferencias sutiles en puntuación y gramática. A juzgar por las imágenes mostradas actualmente por los internautas, V6 es de hecho un paso adelante con respecto a la generación anterior en términos de comprensión y detalles como luces y sombras, composición, material y color.
Utilice el mismo mensaje para probar V6 y V5.2, el contraste es muy obvio (la imagen de arriba es generada por V6; la imagen inferior es generada por V5.2):
Palabra clave: película de suspense de los años 80, filmada desde arriba, un mayordomo francés con traje negro sosteniendo una vela en el pasillo de una mansión victoriana.
Mensaje principal: fotografía estilo callejero de los años 60 de una mujer joven con un vestido de seda verde y un collar de perlas sentada en un velero.
Palabra de referencia principal: operadora vestida con un traje operativo plateado de cuello alto de una película retro de ciencia ficción de los años 40.
Palabra clave: el letrero de neón en la barra de la esquina dice "Abierto hasta tarde".
Palabra clave principal: reflejo del atardecer en un charco de lluvia
Palabra clave principal: una olla de estofado, servida con una cuchara de madera.
En términos de generación de texto, V6 puede incrustar texto en imágenes con mayor claridad e incluso especificar su estilo.
Nota: Texto original de Coca-Cola: CocaCola
Restaura la textura de suéteres, pelos de animales y gotas de lluvia en las ventanas.
El manejo de textos largos también es mejor
Logotipo del producto
Comparación de dibujos de diseño de productos con texto de diferentes herramientas.
Se espera que esta mejora del rendimiento aporte mayores beneficios a las industrias del diseño y el marketing. Se entiende que algunos profesionales del comercio electrónico transfronterizo han utilizado durante mucho tiempo modelos grandes de Wenshengtu para crear páginas de presentación de productos e imágenes de exhibición de modelos. Midjourney es la herramienta más utilizada.
Además, el V6 puede "pintar las manos". Anteriormente, las pinturas de IA habían sido criticadas por ser poco realistas, especialmente los detalles de las manos de los personajes, que a menudo parecen deformadas. Pero con el lanzamiento de V5, resolvió perfectamente este problema técnico e incluso puede mostrar las huellas dactilares y la textura de la piel de la mano, logrando un gran avance en la pintura con IA. A continuación se muestran algunos dibujos a mano:
Actualmente, al V6 le faltan algunas características que se encuentran en el modelo V5.2, incluido el equilibrio de izquierda a derecha y el alejamiento, pero Holz dijo que estas características se implementarán en actualizaciones posteriores del V6.
V6 no será el final de Midjourney. El producto ha estado en iteración. La primera versión se lanzó en marzo de 2022 y luego evolucionó rápidamente hasta la actual sexta versión, actualizada cada tres meses en promedio. En el anuncio de Midjourney, dijeron: La velocidad, la calidad de la imagen, la coherencia, el seguimiento rápido y la precisión del texto de V6 deberían mejorar en las próximas semanas. V6beta anunció su primera actualización media hora después de su lanzamiento, aumentando la velocidad de generación en 2,7 veces.
Anteriormente, la compañía también declaró que las direcciones futuras de actualización tecnológica incluyen la generación de 3D y video. Holz predice que será posible generar contenidos en tiempo real a una alta resolución de 30 fotogramas por segundo, y que en 2030 se podrán generar videojuegos completos.
Cabe mencionar que el fundador David Holz supuestamente rechazó muchas veces la rama de olivo ofrecida por los capitalistas de riesgo. El año pasado, el número de usuarios de Midjourney en la plataforma Discord aumentó de 2 millones a 17,67 millones, con más de 100.000 usuarios cada día. Un millón de personas están en línea (al cierre de esta edición) y el producto ya ha lanzado un modelo pago. Los usuarios pueden elegir entre diferentes paquetes y cobrar entre 10 y 120 dólares al mes. Con un equipo de 40 empleados, Midjourney logró con éxito una ganancia anual de 200 millones de dólares en septiembre.