El 19 de marzo, Xiaomi anunció el lanzamiento de tres modelos grandes de desarrollo propio, Xiaomi MiMo-V2-Pro, Xiaomi MiMo-V2-Omni y Xiaomi MiMo-V2-TTS. Se informa que MiMo-V2-Pro y MiMo-V2-Omni han abierto oficialmente servicios API.

Según la presentación oficial de Xiaomi, entre los tres modelos, MiMo-V2-Pro es la base de texto insignia, que está diseñada para escenarios de trabajo de agentes de alta intensidad y se centra en el razonamiento, la planificación y la invocación de herramientas. MiMo-V2-Omni es una base de agente totalmente modal que integra de forma nativa percepción de texto, visual y de audio para abrir un vínculo completo desde la comprensión hasta la ejecución. MiMo-V2-TTS es un modelo de síntesis de voz de gran tamaño. Su objetivo es brindarles a los Agentes la capacidad de expresar voces cálidas y emocionales, formando el vínculo final de toda la pila.

Como modelo base insignia, MiMo-V2-Pro está especialmente optimizado para escenarios de agentes. Realiza ajustes supervisados ​​y aprendizaje de refuerzo para arquitecturas de agentes complejas y diversas, tiene capacidades de razonamiento de múltiples pasos y llamadas de herramientas más sólidas y, en última instancia, ofrece resultados. Desde un punto de vista arquitectónico, el tamaño total de los parámetros del modelo supera el billón (1T), de los cuales los parámetros de activación son 42B. Adopta un mecanismo de atención híbrido mejorado (Atención híbrida), que mejora en gran medida la capacidad del modelo al tiempo que garantiza la eficiencia del razonamiento. Su ventana de contexto se amplía aún más a 1 millón de tokens, que pueden admitir cadenas de tareas ultralargas y flujos de trabajo complejos.

MiMo-V2-Omni y MiMo-V2-TTS, que se presentaron simultáneamente, completan las dos piezas del rompecabezas de la percepción y la expresión. El valor central del primero radica en la alineación de audio, imágenes y videos. Este último admite un motor de expresión emocional con control detallado, lo que brinda a los agentes capacidades de expresión más cercanas a las de los humanos.

En términos de precio, el precio API de MiMo-V2-Pro es más bajo que el de los productos de la competencia del mismo nivel. En el contexto de 256K, el precio de entrada por millón de tokens es de 1 dólar estadounidense y el de producción es de 3 dólares estadounidenses; dentro del rango de contexto de 1 millón, el insumo es de 2 dólares estadounidenses y el resultado es de 6 dólares estadounidenses. Actualmente, MiMo-V2-Pro ha abierto oficialmente los servicios API. MiMo-V2-Omni también abrió su API y admite una longitud de contexto de 256 K. El precio de entrada es de 0,4 dólares estadounidenses por millón de tokens y el precio de salida es de 2 dólares estadounidenses.


Estándares de cobro de servicios API para MiMo-V2-Pro y Claude

Además, Xiaomi también ha unido fuerzas con los cinco equipos de marco de agentes de OpenClaw, OpenCode, KiloCode, Blackbox y Cline para proporcionar una semana de soporte de interfaz gratuito por tiempo limitado para promover aún más su penetración en la comunidad de desarrolladores.

Esto también se considera una señal importante de que Xiaomi está apostando plenamente por la era de los agentes. Temprano esa mañana, el fundador de Xiaomi, Lei Jun, publicó en las plataformas sociales: "En el campo de la IA, nuestra inversión de capital e I+D este año superará los 16 mil millones de yuanes".


Según Lei Jun, MiMo-V2-Pro, un modelo grande con billones de parámetros, ocupa el octavo lugar en el mundo en el ranking de Análisis Artificial de inteligencia integral de modelos grandes globales. Clasificado por marcas de modelos grandes, ocupa el quinto lugar en el mundo. "Nuestro modelo acaba de ser completado y será iterado y mejorado rápidamente en el próximo período".

Vale la pena mencionar que el gerente de modelos grandes MiMo de Xiaomi, Luo Fuli, también declaró públicamente en las plataformas sociales que el "Hunter Alpha" lanzado anteriormente es la versión de prueba interna del modelo insignia MiMo-V2-Pro. Luo Fuli, nacida en 1995, es considerada una "mujer talentosa en IA" por la industria.

El 11 de marzo, se lanzó el misterioso modelo con el nombre en código “Hunter Alpha” en OpenRouter, la plataforma de agregación de API más grande del mundo. Se informa que en solo siete días, el número acumulado de llamadas a este modelo superó el billón de tokens, y encabezó la lista durante muchos días consecutivos, lo que provocó acaloradas discusiones y una vez se confundió con una versión anterior de "DeepSeek V4". .

Casualmente, Luo Fuli trabajó una vez en DeepSeek. Comenzó su carrera en Alibaba Damo Academy, donde dirigió el desarrollo del modelo de preformación multilingüe VECO y promovió el trabajo de código abierto de AliceMind. En 2022, Luo Fuli se unió a la empresa matriz de DeepSeek, Huanquan Quantitative, para participar en trabajos relacionados con el aprendizaje profundo. Posteriormente se desempeñó como investigadora de aprendizaje profundo en DeepSeek y participó en el desarrollo de DeepSeek-V2 y otros modelos.

En diciembre del año pasado, Luo Fuli hizo su primera aparición pública en la conferencia de socios "Ecosistema de personas, automóviles y hogares" de Xiaomi.

El 17 de diciembre, el socio y presidente del grupo Xiaomi, Lu Weibing, anunció que el gran modelo de IA desarrollado por Xiaomi, Xiaomi MiMo-V2-Flash, era oficialmente de código abierto y se lanzó. Lu Weibing reveló en ese momento que Xiaomi había lanzado "inversiones de presión" en el campo de la IA y que el progreso de grandes modelos y aplicaciones "superó con creces las expectativas". En el futuro, se centrará en la dirección central de "la profunda integración de la IA y el mundo físico".