El 24 de noviembre, Microsoft anunció el lanzamiento del modelo de IA de parámetro 7B Fara-7B, posicionado como un "agente de uso informático (CUA)" que puede ejecutar tareas complejas directamente en el dispositivo local del usuario. Fara-7B no solo logra el mejor rendimiento a la misma escala, sino que también libera a los agentes de IA de depender de enormes modelos de nube, logrando baja latencia y mayores garantías de privacidad de datos en sistemas con recursos limitados.

Según los informes, la arquitectura de Fara-7B aborda directamente las necesidades de seguridad de los datos que más preocupan a los usuarios empresariales. Debido a que el modelo está lo suficientemente optimizado para ejecutarse localmente, los usuarios pueden automatizar flujos de trabajo confidenciales (como la administración de cuentas internas o el procesamiento de datos confidenciales) sin que la información relevante salga del dispositivo local, lo que mejora enormemente la privacidad y el cumplimiento.

Fara-7B interactúa con páginas web mediante "operaciones de visualización de pantalla". Utiliza capturas de pantalla para "percibir visualmente" el diseño de la página como lo hacen los humanos, prediciendo coordenadas para completar clics, entradas, desplazamientos y otras acciones, y no depende de la estructura de árbol de accesibilidad subyacente del navegador. Este método de "operar" únicamente con información visual a nivel de píxeles le permite funcionar correctamente en sitios web con estructuras de código confusas y páginas difíciles de analizar.

Yash Lara, gerente senior de productos de Microsoft Research, dijo que el procesamiento de información visual completamente localmente logra una verdadera "soberanía de píxeles", lo que permite que los procesos de automatización y razonamiento de datos permanezcan locales, satisfaciendo así las necesidades de cumplimiento de industrias altamente reguladas, como las industrias médica y financiera.

En pruebas estándar como WebVoyager, la tasa de éxito de la tarea de Fara-7B es del 73,5%, mejor que modelos como GPT-4o (65,1%) y UI-TARS-1.5-7B (66,4%), que consumen más recursos. Al mismo tiempo, Fara-7B solo necesita un promedio de 16 pasos para completar la tarea, mientras que UI-TARS-1.5-7B requiere 41 pasos, lo que mejora significativamente la eficiencia. Además, Fara-7B muestra la mejor relación precio/rendimiento entre precisión y costo.

Sin embargo, Microsoft también enfatizó que este modelo todavía tiene problemas con los sistemas generales de IA, como alucinaciones y errores al procesar instrucciones complejas. Para reducir los riesgos, Fara-7B introduce un mecanismo de "punto clave": antes de involucrar datos personales del usuario o acciones irreversibles (como enviar correos electrónicos, operaciones financieras), el modelo se detendrá activamente y solicitará la confirmación del usuario. Microsoft ha diseñado una interfaz de usuario de interacción humano-computadora (Magenic-UI) para permitir a los usuarios intervenir a tiempo y evitar interrupciones excesivas.

Fara-7B se desarrolló utilizando un enfoque de "destilación de conocimientos" para comprimir y transformar una gran cantidad de casos exitosos de sistemas multiagente (145.000 trayectorias de navegación autónoma generadas por Magentic-One) en un solo modelo. Su modelo base es Qwen2.5-VL-7B, que tiene una ventana de contexto de hasta 128.000 palabras y potentes capacidades de alineación de elementos visuales y de texto. Todo el proceso se centra en un ajuste supervisado, lo que permite que el modelo "imite" las demostraciones de los expertos humanos.

Para el futuro, Microsoft enfatizó que no aumentará ciegamente el tamaño del modelo, sino que se centrará en "hacer que los modelos pequeños sean más inteligentes y seguros". El plan de seguimiento es introducir en el entrenamiento el mecanismo de aprendizaje por refuerzo (RL) en el entorno sintético, lo que permite a Fara-7B aprender de forma autónoma en el entorno sandbox.

Actualmente, Fara-7B se ha lanzado en las plataformas Hugging Face y Microsoft Foundry a través del protocolo MIT, lo que permite su uso comercial. Sin embargo, Microsoft recuerda que el modelo aún no ha alcanzado el nivel de producción y es principalmente adecuado para el desarrollo y pruebas de prototipos.