En la prueba de modelo grande KCORES, la puntuación de capacidad de código de DeepSeek-V3-0324 fue de 328,3 puntos, superando la versión ordinaria de Claude3.7Sonnet (322,3 puntos) y acercándose a la versión de cadena de pensamiento de Claude3.7Sonnet (334,8 puntos).
En el ranking AiderLLMLaderboard, DeepSeek-V3-0324 obtuvo una puntuación del 55 % en la prueba comparativa en varios idiomas, lo que supone una mejora significativa con respecto a la V3 y un poco por debajo de la R1. Entre los modelos sin pensamiento/razonamiento, ocupa el segundo lugar detrás de ClaudeSonnet3.7.
Los datos de la prueba también muestran que entre los modelos que funcionan bien, DeepSeek-V3-0324 tiene el costo más bajo, mucho más bajo que el R1, solo alrededor de 1/5, y tiene un rendimiento de costo escandalosamente alto.
Además, el costo de ClaudeSonnet3.7Thinking es 33 veces mayor que el de DeepSeek-V3-0324, y o1 es 167 veces mayor que el de DeepSeek-V3-0324.
Actualmente en el sitio web oficial de DeepSeek, solo necesita desactivar la opción "Pensamiento profundo" para usar el nuevo modelo.
Las descargas de código abierto también se proporcionan en HuggingFace, dirección de descarga:
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main
DeepSeek-V3-0324 contiene parámetros 685B, un ligero aumento con respecto a la generación anterior V3. Adopta la arquitectura MoE (Mixto de Expertos) y activa 37 mil millones de parámetros. Los internautas midieron que DeepSeek-V3-0324 admite cuantificación de 4 bits y puede ejecutarse a una velocidad de más de 20 tokens/s en un 512 GBM3UltraMac, ocupando sólo 352 GB de espacio en disco. El nuevo modelo adopta la misma licencia MIT que DeepSeek-R1, lo que permite modificaciones, uso comercial y destilación del modelo gratuitos, y es más abierto que la versión anterior V3.
A juzgar por los resultados de la evaluación, el rendimiento del desarrollo front-end de DeepSeek-V3-0324 es sobresaliente, comparable a los mejores modelos comerciales.
El blogger de X, Deepanshu Sharma, solo usa un mensaje simple ("use HTML/CSS/JS para crear una página de inicio de sesión moderna") y puede hacer que la nueva versión de V3 genere más de 800 líneas de código con un solo clic y se ejecute sin errores. El efecto es comparable al de Claude3.7Sonnet.
En la clásica prueba de rebote de la pelota, DeepSeekV3-0324 no solo obtuvo mejores resultados que R1, sino que el blogger Deepanshu Sharma también creía que generaba los movimientos más suaves.
El o3-mini inicialmente se veía bien en las pruebas, pero no seguía correctamente la física, especialmente en la mitad del video, donde la bola no reaccionaba correctamente a la gravedad.
DeepanshuSharma comentó que DeepSeekV3-0324 "funciona como el único modelo sin inferencia mejor clasificado".
Según el internauta X karminski-dentist, DeepSeekV3-0324 también obtuvo mejores resultados que V3 en la versión mejorada de la prueba de simulación física de 20 bolas.
La comparación entre la nueva versión de V3 y el modelo de inferencia principal es la siguiente:
En la prueba de la misión a Marte, DeepSeek-V3-0324 ha mejorado enormemente. Los planetas y las leyendas se representan correctamente y también se han mejorado enormemente los cálculos de las ventanas para el lanzamiento y el regreso.
Combinando diseño de interfaz de usuario y simulación física, el internauta X ParulPandey también usó DeepSeek-V3-0324 para generar una interfaz de simulación física interactiva y utilizó DeepSeek-V3-0324 para simular moléculas de agua a través de AnyChat.
En el funcionamiento real, la temperatura se puede aumentar a través del control deslizante de temperatura para permitir que las moléculas avancen cada vez más rápido y colisionen y reboten.
Consejo: cree una simulación interactiva que muestre moléculas de agua formando y rompiendo enlaces de hidrógeno, junto con un control deslizante de temperatura.
Con respecto a la dificultad técnica de esta actualización, el usuario de Reddit pigeon57434 dio una interpretación relativamente neutral: no se sorprendan demasiado por la magnitud de esta actualización V3, porque RL (Aprendizaje por refuerzo) tiene un gran potencial. Tomemos como ejemplo el QwQ-32B. Aunque en realidad es 20 veces más pequeño, funciona casi tan bien o incluso mejor que el R1 en algunas áreas. Puede ser tan poderoso sólo porque hay mucho espacio para expandir el modelo de inferencia y ni siquiera requiere un nuevo modelo base. Apuesto a que usando técnicas más sofisticadas, uno puede fácilmente conseguir que un modelo de inferencia basado en DeepSeek-V2.5 supere a R1, y mucho menos a esta nueva versión de V3.
En general, esta combinación de gratuidad + alto rendimiento ejercerá una presión cada vez mayor sobre los modelos comerciales de código cerrado como OpenAI y Anthropic.
Esta actualización de DeepSeek demuestra una vez más el poder explosivo de los modelos de código abierto. Sus indicadores técnicos no solo se acercan a la IA comercial superior, sino que también promueven el cambio en la industria con bajo costo y alta libertad.
Se puede especular razonablemente que esta actualización puede ser una versión previa de R2, similar al ritmo de lanzamiento de V3 (24.12.16) → R1 (25.01.20) del año pasado. Quizás podamos introducir un modelo de inferencia R2 más sólido dentro de unas pocas semanas.
A medida que se acerca la R2, el panorama de la competencia global de IA puede marcar el comienzo de una nueva ronda de reorganización.