En los últimos días ha habido una explosión de IA doméstica. GLM-5, Minimax 2.5 y DeepSeek lanzaron nuevos modelos grandes el mismo día 11, entre los cuales, naturalmente, DeepSeek atrajo la mayor atención. Hemos informado antes que esta actualización mejora principalmente la capacidad de contexto, alcanzando 1M, mientras que la serie DeepSee V3 anterior era 128K, que es 7 veces mayor que el modelo grande de la serie V3 anterior.
DeepSeek también confirmó esto oficialmente en el grupo oficial esta noche.Indica que la página web y la versión de la aplicación están probando una nueva estructura de modelo de texto largo y admiten el contexto 1M.
Al mismo tiempo, DeepSeek también enfatizó que el servicio API no ha cambiado. Sigue siendo un modelo grande de la serie V3.2 y solo admite contexto de 128K.

A juzgar por la introducción de DeepSeek, este nuevo modelo sigue siendo un modelo de texto. La principal mejora es la capacidad contextual, que también es muy importante en muchos campos. Durante conversaciones largas, es fácil que los modelos grandes no puedan recordar el contenido anterior debido a un contexto insuficiente.
Aunque ha habido muchas pruebas reales en Internet que demuestran que este modelo grande de DeepSeek ha mejorado mucho en términos de programación, velocidad de salida, etc., pero en comparación con las expectativas anteriores, esta actualización es inevitablemente un poco decepcionante.
El modelo grande esta vez obviamente no es el V4, sino más bien el V4 Lite, porque se informa que la cantidad de parámetros es de solo 200 mil millones, que es mucho menos que los 670 mil millones de la serie V3, por lo que es normal que algunas capacidades sean peores que las del V3.
Se especula que este modelo es V4 lite. Es poco probable que DeepSeek lance sólo un modelo V4 grande en el futuro. En cambio, habrá diferentes versiones. Cada serie tiene diferentes direcciones y diseños. El V4 Lite actual es sólo un pionero, por lo que no hay muchas mejoras. Además, los funcionarios de DeepSeek no han detallado su arquitectura técnica y aún no se ha publicado más información.
La rumoreada versión completa de DeepSeek V4 tiene 1,5 billones de parámetros, más del doble que la serie V3.También se utilizarán nuevas tecnologías como Engram y mHC previamente estudiadas por DeepSeek.El rendimiento mejora ampliamente mientras el costo sigue siendo bajo. Esta expectativa sigue siendo muy alta.