Manus se retiró recientemente del mercado chino, eliminó el contenido de su cuenta social nacional y se trasladó con todas sus fuerzas a los mercados extranjeros. La explicación oficial fue que el motivo se basó principalmente en el ajuste de la eficiencia operativa y el diseño internacional. El 19 de julio, hora de Beijing, el cofundador de Manus, Ji Yichao, publicó un blog técnico, respondiendo por primera vez desde una perspectiva técnica, resumiendo las experiencias y lecciones aprendidas en I+D y capacitación de agentes desde que se fundó la empresa.

Desde una perspectiva técnica, Ji Yichao dijo que Manus se centrará en la ingeniería de contexto y logrará una rápida iteración del producto con la ayuda de la "memoria" estructural y los procesos. Incluye principalmente apostar por el contexto, ya no entrenar modelos, enfatizar la importancia de la tasa de aciertos de KV-Cache (Key-Value Cache, un mecanismo de almacenamiento en caché), no agregar herramientas dinámicamente y usar el sistema de archivos para alojar contexto persistente. El núcleo es ahorrar el costo de capacitación del modelo subyacente y centrarse en mejorar la eficiencia de la capacitación.
En modelos grandes, el contexto generalmente se refiere a la recopilación de información a la que hace referencia el modelo al procesar tareas o generar contenido de salida. Puede ayudar al modelo a mejorar su comprensión, mejorar el desempeño de las tareas y mejorar la coherencia de los resultados. Anteriormente, el fundador de Dark Side of the Moon Kimi, Yang Zhilin, enfatizó la importancia del contexto en una entrevista. Dijo que el valor final de los productos Ai-native (forma de producto definida por AI) es proporcionar una interacción personalizada, y el contexto largo sin pérdidas (LosslessLongContext) es la clave para lograr este objetivo. Consideró que a largo plazo no debería existir un ajuste fino del modelo. El historial de interacción entre el usuario y el modelo es el mejor proceso de personalización, y la tecnología de contexto prolongado puede registrar y utilizar mejor estos historiales de interacción.
Además, la tasa de aciertos de KV-Cache es crucial, principalmente porque una tasa de aciertos alta puede mejorar la eficiencia de la inferencia, optimizar la utilización de recursos y reducir los costos informáticos. En base a esto, KV-Cache a menudo se denomina el núcleo de eficiencia de la fase de inferencia del modelo Transformer.
Elegir mejorar la eficiencia de la capacitación a partir de los aspectos anteriores en lugar de partir del modelo subyacente es una lección que Ji Yiguo ha aprendido a lo largo de los años. Dijo que cuando fundó su última empresa (Peak Labs), el equipo decidió entrenar modelos para la extracción de información abierta y la búsqueda semántica desde cero, pero poco después aparecieron los modelos GPT-3 de OpenAI y Flan-T5 de Google, y los modelos internos desarrollados por el equipo desde cero se volvieron irrelevantes de la noche a la mañana. "Irónicamente, estos modelos marcan el comienzo del aprendizaje contextual y un nuevo camino a seguir". Dijo Ji Yichao.
Basado en lecciones anteriores, después de iniciar Manus, el equipo ya no invirtió en investigación y desarrollo de modelos base, sino que eligió entre usar modelos básicos de código abierto para capacitar agentes de un extremo a otro y construir agentes basados en las capacidades de aprendizaje contextual de los modelos de vanguardia. Aunque las lecciones aprendidas de Peak Labs hicieron que el equipo de Manus se diera cuenta de la importancia del contexto, no fue fácil. Se necesitaron cuatro ajustes del marco del Agente para lograr la solución óptima local.
Sin embargo, cabe señalar que esta estrategia todavía tiene limitaciones, especialmente cuando se enfrenta al Agente ChatGPT que acaba de lanzar OpenAI. La razón principal es que ChatGPT Agent se basa en el modelo dedicado de OpenAI y adopta capacitación de un extremo a otro, que puede manejar mejor tareas complejas. Aunque Manus puede mejorar la eficiencia, todavía depende de la combinación externa de múltiples modelos y la optimización de ingeniería, y es ligeramente inferior en consistencia y precisión en la ejecución de tareas.
Además, cuando Manus ingresó al mercado internacional, OpenAI llevó la industria de agentes a un punto de inflexión con sus ventajas de modelo subyacentes, atrayendo a más desarrolladores y usuarios a las plataformas de los principales fabricantes. Aunque las startups tienen espacio para sobrevivir en los campos verticales, todavía enfrentan inevitablemente el desafío de competir por participación de mercado. Especialmente cuando los productos de los agentes se enfrentan actualmente a dificultades como una gran homogeneidad, modelos de negocio poco claros y costes elevados, los aspectos destacados de la ingeniería contextual y otros aspectos no son suficientes para que las startups destaquen. El equipo aún necesita continuar optimizando las estrategias técnicas y explorar caminos de desarrollo diferenciados.