Después de que el director ejecutivo de Tesla, Elon Musk, elogiara públicamente los últimos resultados de la investigación de la empresa china de inteligencia artificial Kimi, la cuenta oficial de Kimi respondió hoy en tono humorístico: "¡Tu cohete tampoco está mal!".Recientemente, el equipo de Kimi publicó un informe técnico, proponiendo un nuevo mecanismo de Residuales de Atención para lograr una reconstrucción disruptiva de la conexión residual tradicional que se ha utilizado en el campo del aprendizaje profundo durante casi diez años y rápidamente ganó atención global.

Las conexiones residuales tradicionales utilizan "acumulación fija de peso igual" para transmitir información. Aumentar el número de capas puede conducir fácilmente a la dilución de información poco profunda, una baja eficiencia del entrenamiento y una estabilidad deficiente.

La innovación de Kimi equivale a instalar un "filtro inteligente" en la IA, migrar el mecanismo de atención del Transformador a la dimensión de profundidad del modelo, permitiendo que cada capa filtre dinámicamente información previamente útil, reduzca la redundancia y mejore la eficiencia de la transmisión.

Para evitar la sobrecarga de memoria, el equipo diseñó la estrategia de "bloquear atención residual". Después de dividir el modelo en bloques, la acumulación tradicional se conserva en los bloques para garantizar la estabilidad.Se utiliza ponderación dinámica entre bloques y el retraso de inferencia solo aumenta en menos del 2%, logrando un equilibrio entre rendimiento y eficiencia.

Las mediciones reales muestran que la eficiencia del entrenamiento del modelo de parámetros 48B aumenta 1,25 veces, y las puntuaciones de razonamiento científico y respuesta a preguntas matemáticas aumentan en un 7,5% y un 3,6% respectivamente, resolviendo eficazmente el problema de desequilibrio del entrenamiento del modelo tradicional.

Musk, conocido por ser exigente, remitió la investigación y comentó que "el trabajo de Kimi es impresionante". Su xAI está en proceso de reestructuración y este reconocimiento demuestra su peso técnico.

Además, Jerry Tworek, ex vicepresidente de investigación de OpenAI, conocido como el "padre de los modelos de inferencia", también escribió: "El aprendizaje profundo 2.0 está por llegar".