La Universidad de Ciencia y Tecnología de Huazhong emitió oficialmente un comunicado indicando que un equipo de la Escuela de Software de la escuela lanzó el modelo grande multimodal "Monkey".Este modelo es bueno para la descripción de imágenes y preguntas y respuestas visuales, y puede realizar "observaciones" del mundo, realizar una comunicación profunda de preguntas y respuestas y describir imágenes con precisión.


Según la introducción oficial, en experimentos con 18 conjuntos de datos, el modelo Monkey de la Universidad de Huake funcionó bien, especialmenteEn términos de descripción de imágenes y tareas visuales de preguntas y respuestas, ha superado muchos modelos conocidos existentes, como LLAVA de Microsoft, PALM-E de Google, Mplug-owl de Alibaba, etc.

también,Monkey muestra ventajas significativas en tareas de preguntas y respuestas con uso intensivo de texto, superando incluso al líder reconocido en la industria GPT-4V en algunas muestras.

Una característica distintiva de Monkey es su excelente capacidad para "hablar mirando imágenes". En la tarea de descripción detallada, Monkey demostró su capacidad para percibir detalles de la imagen y pudo detectar contenido que otros grandes modelos multimodales ignoraban.

Otro punto a destacar es la capacidad de procesar imágenes con resoluciones de hasta 1344x896 píxeles, que es 6 veces el tamaño máximo que otros modelos grandes multimodales pueden manejar actualmente.

Se informa que la resolución máxima de las imágenes procesadas actualmente por la industria es de 448×448 píxeles.

Vale la pena mencionar que el equipo ha hecho que el código Monkey sea de código abierto en GitHub, la plataforma de servicios de alojamiento de códigos más grande del mundo.