En la noche del 16 de marzo, el director ejecutivo de Tesla, Musk, habló públicamente en las plataformas sociales, elogiando los últimos logros tecnológicos del equipo de la empresa china de inteligencia artificial Kimi, diciendo que el trabajo era "impresionante" y poniendo en conocimiento del público la investigación de vanguardia de este gran modelo producido en el país.

Como los artículos técnicos se publicaron simultáneamente, Guangyu Chen, que ocupó el primer lugar en la lista de autores, atrajo la atención de todo Internet: el autor principal era en realidad un estudiante de secundaria de 17 años de Shenzhen, Guangdong.

Según la información marcada en el apéndice del artículo, Chen Guangyu, Zhang Yu y Su Jianlin son todos coautores con contribuciones iguales, y los 34 autores participantes restantes no han marcado esta calificación.

Entre ellos, Zhang Yu es el desarrollador principal de la arquitectura de modelo eficiente de Kimi, y Su Jianlin es el proponente de la codificación de posición rotacional (RoPE).

Vale la pena mencionar que Chen Guangyu solo ha estado profundamente involucrado en el campo de la IA durante solo un año. En la etapa inicial, completó rápidamente los conocimientos básicos y las habilidades prácticas de la IA estudiando de forma independiente artículos de vanguardia y rastreando proyectos de código abierto de GitHub.

El verano pasado, fue a San Francisco para completar una experiencia de pasantía de 7 semanas. Después de regresar a China, se unió al equipo de Kimi en noviembre del año pasado para participar en la pasantía.

Después de la publicación del artículo, Chen Guangyu publicó una reseña de los resultados en su círculo de amigos, mencionando específicamente a los tres autores que contribuyeron por igual, así como a los colegas del equipo responsables de la expansión del modelo y la construcción de infraestructura. Él respondió de manera discreta: "Es un esfuerzo de equipo, no un dios".

Según los informes, este informe técnico publicado por el equipo de Kimi propone un nuevo mecanismo de Residuales de Atención para lograr una reconstrucción disruptiva de la conexión residual tradicional que se ha utilizado en el campo del aprendizaje profundo durante casi diez años.

La innovación de Kimi equivale a instalar un "filtro inteligente" en la IA, migrar el mecanismo de atención del Transformador a la dimensión de profundidad del modelo, permitiendo que cada capa filtre dinámicamente información previamente útil, reducir la redundancia y mejorar la eficiencia de la transmisión.