Faltan solo unos días para finales de abril y el lanzamiento del modelo grande DeepSeek V4 ha tocado el corazón de la gente. Ayer, los investigadores de la compañía actualizaron repentinamente la biblioteca del operador DeepGEMM, que se considera un precursor del lanzamiento de V4. Sin embargo, obviamente anticiparon la reacción del mundo exterior y agregaron una explicación adicional después de la actualización.Se enfatiza que esta actualización solo está relacionada con el desarrollo de DeepGEMM y no tiene nada que ver con el lanzamiento del modelo interno.Es decir, no lo pienses mucho, esto no significa que se lanzará la V4.

Sin embargo, cuanto más se hace esta declaración, más personas están interesadas en DeepSeek V4, porque hay muchos aspectos destacados en esta ola de actualizaciones de DeepGEMM y no se puede relacionar con el modelo grande V4.
Además de admitir el operador híbrido FP8_FP4 y optimizar el soporte para NVIDIA Blackwell, esta actualización incluye principalmente Mega MoE e HyperConnection. Mega MoE puede aportar una actualización importante a la arquitectura MoE.
Mega MoE tiene muchos beneficios y hay muchas explicaciones en Internet.El análisis de Gemini sugiere que el número de expertos activados en V4 será significativamente mayor que los 256 en V3, y pueden ser miles.Obviamente, esto mejorará en gran medida el rendimiento de V4, manteniendo la flexibilidad y sin exigencias exageradas de potencia informática y memoria de video.

Más importante aún, esta actualización de DeepGEMM también indica la cantidad de parámetros del modelo grande V4. Los internautas dijeron que el MoE de una sola capa es de aproximadamente 25,37 mil millones.Si todavía tiene 60 capas, lo más probable es que V4 sea un modelo grande de 1,6 T o, en el peor de los casos, será un modelo grande de 48 capas de 1,25 T.
En comparación con los rumores anteriores de que V4 tiene 1T billón de parámetros, los parámetros de 1,6T significan que es un 60% más alto que las expectativas anteriores, por lo que vale la pena esperar el rendimiento.
En caso de que no se realice 1,6T, el volumen de parámetros de 1,25T se duplicará en comparación con los 670 mil millones de parámetros del V3 actual. Todavía podemos esperar con ansias la actuación. Después de todo, si la tecnología Mega MoE puede activar nuevamente a miles de expertos, definitivamente será una transformación y un hito en el desarrollo de grandes modelos de arquitectura MoE.