En la conferencia de desarrolladores Build 2026, Microsoft anunció una expansión significativa de su familia de modelos MAI de desarrollo propio creada por el equipo de Superinteligencia de IA de Microsoft, lanzando el primer modelo de inferencia de propósito general MAI-Thinking-1, un modelo de código MAI-Code-1 para GitHub Copilot y múltiples versiones actualizadas de modelos de generación de imágenes, transcripción y voz para mejorar aún más su panorama de tecnología de IA de extremo a extremo. Esto marca la expansión acelerada de Microsoft en el campo de modelos básicos, desde voz e imágenes hasta razonamientos complejos y escenarios de productividad de desarrolladores.

Microsoft dijo que la familia de modelos MAI continuó expandiéndose durante el año pasado y lanzó MAI-Voice-1, MAI-1-preview y MAI-Transcribe-1 y MAI-Image-2 a principios de este año, y luego lanzó MAI-Image-2.5, que mejoró la calidad de la representación de texto, ilustraciones estilizadas e imágenes comerciales. Esta vez, sobre esta base, se agregan nuevos modelos de razonamiento y codificación, y las líneas de productos de voz, transcripción e imagen se actualizan simultáneamente para formar una cartera de productos más completa.
MAI-Thinking-1 es el primer modelo de inferencia anunciado oficialmente por Microsoft. Fue entrenado desde cero por el equipo de IA de Microsoft y no se destiló de otros modelos. Microsoft enfatizó que el modelo está entrenado utilizando datos de nivel empresarial limpios y con licencia comercial y está diseñado para cumplir con los requisitos de los usuarios empresariales en cuanto a cumplimiento y comercialización de datos. MAI-Thinking-1 es un modelo de escala media con 35 mil millones de parámetros de activación y admite ventanas de contexto de 128K. Está dirigido principalmente a escenarios como la ejecución de instrucciones complejas de varios pasos, el razonamiento de contexto extenso y la generación de código.
Aunque Microsoft no reveló datos de referencia detallados en el anuncio, citó resultados de revisiones independientes en su blog y dijo que en la prueba ciega, la preferencia general de los revisores fue más hacia MAI-Thinking-1 que hacia Claude Sonnet 4.6 de Anthropic. Además, Microsoft también afirmó que en la prueba de tareas de código SWE-bench Pro, MAI-Thinking-1 fue comparable a Claude Opus 4.6 en rendimiento de codificación, lo que muestra el potencial de este modelo para desarrolladores y tareas de ingeniería complejas. MAI-Thinking-1 se encuentra actualmente en versión preliminar privada para clientes seleccionados a través de Microsoft Foundry.
En términos de generación de imágenes, el MAI-Image-2.5 lanzado anteriormente por Microsoft y su "variante flash" se han abierto a los desarrolladores a través de Microsoft Foundry. Según los últimos datos de la lista de artículos de Arena citados por Microsoft, MAI-Image-2.5 ha superado al Nano Banana Pro de Google en la tarea de generar imágenes de texto y ha entrado entre los tres primeros de la lista. Este modelo se ha integrado en PowerPoint y se está implementando gradualmente en OneDrive, proporcionando capacidades de generación de imágenes de mayor calidad para el ecosistema de Office.
En términos de transcripción de voz, Microsoft lanzó MAI-Transcribe-1 en abril de este año, que admite la transcripción de voz a texto en los 25 idiomas más utilizados según sus propios datos de uso del producto. Esta vez, Microsoft lanzó la versión mejorada MAI-Transcribe-1.5, que alcanzó el nivel líder en la industria en precisión de reconocimiento de voz y amplió la cantidad de idiomas cubiertos a 43. Planea agregar pronto capacidades de transcripción de transmisión al modelo para satisfacer las necesidades de escenarios en tiempo real.
En la dirección de la síntesis de voz, después de anunciar que MAI-Voice-1 estaba disponible de forma generalizada en abril de este año, Microsoft lanzó esta vez MAI-Voice-2 y su versión relámpago. El modelo de generación de voz de nueva generación admite más de 15 idiomas adicionales y proporciona más opciones de estilo de voz para adaptarse a escenarios de aplicaciones más ricos, como servicio al cliente multilingüe, doblaje de contenido y asistentes inteligentes.
Para escenarios de codificación para desarrolladores, Microsoft lanzó simultáneamente MAI-Code-1, un modelo de código de inferencia eficiente optimizado para cargas de trabajo de GitHub. Este modelo se lanzó en GitHub Copilot y Visual Studio Code y brinda soporte para codificación diaria, refactorización, finalización de código y otros escenarios. Aunque Microsoft no ha revelado los resultados de referencia específicos de MAI-Code-1, este lanzamiento se considera una señal importante: Microsoft ya no depende completamente de OpenAI y Anthropic para el modelo subyacente de GitHub Copilot, sino que introduce gradualmente modelos de desarrollo propio.
En términos de canales de distribución, además de brindar servicios a empresas y desarrolladores a través de Microsoft Foundry, Microsoft también anunció que sus modelos de la serie MAI se lanzarán en plataformas de terceros como Fireworks AI, Baseten y OpenRouter. Al mismo tiempo, Fireworks AI también está disponible de forma generalizada en Microsoft Foundry, lo que brinda a los clientes empresariales más opciones de arquitectura e implementación. Al cooperar con múltiples plataformas, Microsoft espera reducir aún más el umbral de acceso y acelerar la implementación de modelos MAI en diferentes ecosistemas de herramientas y nubes.
A partir del diseño general, Microsoft está creando una matriz completa de capacidades de IA a nivel empresarial utilizando múltiples tipos de modelos, como razonamiento, codificación, voz, transcripción e imágenes de MAI. Con la incorporación de MAI-Thinking-1 y MAI-Code-1, la voz de Microsoft en los campos del razonamiento complejo y la productividad de los desarrolladores se ha mejorado significativamente, y también ha proporcionado una base técnica más competitiva para GitHub Copilot, la serie Office y las plataformas de colaboración.