En diciembre de 2024, Microsoft lanzó Phi-4, un modelo de lenguaje pequeño (SLM) con el rendimiento más avanzado de su clase. Hoy, Microsoft está ampliando la serie Phi-4 con dos nuevos modelos: Phi-4-multimodal y Phi-4-mini. El nuevo modelo multimodal Phi-4 admite voz, visión y texto simultáneamente, mientras que Phi-4-mini se centra en tareas basadas en texto.

Phi-4-multimodal es un modelo de parámetros de 5.600 millones y el primer modelo de lenguaje multimodal de Microsoft que integra procesamiento de voz, visión y texto en una arquitectura unificada. Como se muestra en la siguiente tabla, Phi-4-multimodal logra un mejor rendimiento en múltiples puntos de referencia en comparación con otros modelos omnidireccionales de última generación existentes, como Gemini2.0Flash y Gemini2.0FlashLite de Google.

En tareas relacionadas con el habla, Phi-4-multimodal supera a los modelos de voz profesionales como WhisperV3 y SeamlessM4T-v2-Large tanto en reconocimiento automático de voz (ASR) como en traducción de voz (ST). El modelo encabezó la clasificación de HuggingFaceOpenASR con una asombrosa tasa de error de palabras del 6,14%.

En tareas relacionadas con la visión, Phi-4-multimodal obtuvo buenos resultados en razonamiento matemático y científico. Este nuevo modelo es comparable o incluso supera a modelos populares como Gemini-2-Flash-lite-preview y Claude-3.5-Sonnet en términos de capacidades multimodales comunes, como comprensión de documentos y diagramas, OCR y razonamiento científico visual.

Phi-4-mini es un modelo de parámetros de 3.8B que supera a varios LLM populares a gran escala en tareas basadas en texto que incluyen razonamiento, matemáticas, codificación, seguimiento de instrucciones y llamada de funciones.

Para garantizar la seguridad de estos nuevos modelos, Microsoft trabajó con expertos en seguridad internos y externos para realizar pruebas y adoptar estrategias desarrolladas por Microsoft AI Red Team (AIRT). Tanto el modelo Phi-4-mini como el Phi-4-multimodal se pueden implementar en el dispositivo después de optimizarlos aún más utilizando ONNX Runtime para su usabilidad multiplataforma, lo que los hace adecuados para escenarios de aplicaciones de bajo costo y baja latencia.

Tanto el modelo Phi-4-multimodal como el Phi-4-mini ahora están disponibles para los desarrolladores en AzureAIFoundry, HuggingFace y NVIDIAAPICatalog. Los desarrolladores pueden consultar la documentación técnica para comprender el propósito del modelo recomendado y sus limitaciones.

Estos nuevos modelos Phi-4 representan un avance importante en inteligencia artificial eficiente, brindando poderosas capacidades multimodales y basadas en texto a una variedad de aplicaciones de inteligencia artificial.