El equipo de SuperCLUE publicó los resultados de la evaluación del modelo grande chino de la serie DeepSeek V4. DeepSeek-V4-Pro ocupó el primer lugar en el país debido a su desempeño integral., la versión Flash le siguió de cerca en segundo lugar, y el modelo nacional de código abierto está logrando otro gran avance. Esta evaluación cubre seis dimensiones: razonamiento matemático, razonamiento científico, generación de código, planificación de tareas del agente, seguimiento de instrucciones y control de ilusiones. La versión Pro obtuvo 70,98 puntos y la versión Flash obtuvo 68,82 puntos. Ambos puntajes estuvieron significativamente por delante de otros modelos nacionales.

La serie DeepSeek V4 adopta un nuevo mecanismo de atención. Todas las versiones admiten millones de contextos largos, al tiempo que reducen la potencia informática y el uso de memoria. Cuando se utiliza con chips domésticos, la eficiencia general es mayor.
En comparación con la generación anterior V3.2, ambas versiones han logrado mejoras integrales. La capacidad del agente de la versión Pro se ha mejorado en más de 20 puntos, el razonamiento matemático se ha mejorado en casi 10 puntos, el seguimiento de comandos se ha mejorado en casi 12 puntos y el control de ilusiones también se ha optimizado significativamente.

Si bien mantiene un razonamiento eficiente, la versión Flash también mejora significativamente el razonamiento matemático y de agentes, con un rendimiento de costos excepcional.

La versión Pro (15 yuanes/millón de tokens) se centra en un alto rendimiento, un control de ilusión más estable y es adecuada para tareas complejas y escenas profesionales. La versión Flash es más rápida y económica. El precio de la API es de sólo 1,25 yuanes por millón de tokens, lo que la hace más rentable para el uso diario.
La evaluación también señaló que todavía existe una brecha entre el modelo y los mejores modelos extranjeros en términos de generación de código y ejecución de instrucciones complejas. En general, DeepSeek V4 se ha establecido como el primer escalón en China con sus capacidades equilibradas y su costo asequible, convirtiéndose en una opción de alta calidad para el trabajo diario de oficina, el desarrollo y la creación, y el procesamiento de textos largos.