La startup china de inteligencia artificial DeepSeek lanzó silenciosamente un nuevo modelo el lunes. Este modelo con 685 mil millones de parámetros se llama DeepSeek-V3-0324. Se lanzó en el repositorio de IA HuggingFace sin ningún anuncio, pero aún así causó revuelo en la industria.

Este modelo obtuvo una licencia del MIT, lo que significa que puede usarse libremente con fines comerciales, y las primeras pruebas en la industria han confirmado que el modelo puede ejecutarse directamente en hardware de consumo, como el Apple MacStudio de gama alta del mercado.

El investigador de inteligencia artificial Awni Hannun dijo que el nuevo modelo DeepSeek-V3 puede funcionar a una velocidad de 20 tokens por segundo en una computadora Apple equipada con un chip M3 Ultra. Esto rompe el consenso anterior de la industria sobre el conflicto entre las capacidades de los modelos de inteligencia artificial y la operación localizada, y también significa que los centros de datos no son una combinación necesaria para los modelos grandes.

Otro investigador de inteligencia artificial, Xeophon, afirmó en X que después de probar la nueva versión de DeepSeek-V3 en un banco de trabajo interno, descubrió que había dado un gran salto en todos los indicadores probados. Ahora es el mejor modelo no inferencial, superando al Claude Sonnet 3.5 de Oracle.

Discreto pero sensacional

DeepSeek-V3-0324 salió sin un documento técnico ni publicidad, solo un archivo Léame vacío. Esta forma de lanzamiento casi austera contrasta marcadamente con el modelo de promoción de productos cuidadosamente seleccionado de Silicon Valley.

Al mismo tiempo, todos los modelos de DeepSeek son de código abierto y gratuitos para que cualquiera pueda descargarlos y utilizarlos, a diferencia de uno de los mejores modelos comerciales, ClaudeSonnet, que cobra una tarifa mensual de 20 dólares.

Además, DeepSeek reimagina fundamentalmente cómo operan los grandes modelos de lenguaje, activando sólo alrededor de 37 mil millones de parámetros en lugar de todos los llamados módulos "expertos", durante una tarea específica, lo que reduce en gran medida los requisitos computacionales.

El modelo también presenta otras dos tecnologías innovadoras: atención multilatente (MLA) y predicción de etiquetas múltiples (MTP). MLA mejora la capacidad del modelo para mantener el contexto en textos largos, mientras que MTP genera múltiples tokens en cada paso en lugar del método habitual de generar un token a la vez. En conjunto, estas innovaciones aumentan la velocidad de producción en casi un 80%.

Hasta cierto punto, DeepSeek encarna el espíritu de la búsqueda fundamental de eficiencia y recursos de las empresas chinas, es decir, cómo lograr un rendimiento igual o más optimizado con recursos informáticos limitados. Esta innovación impulsada por la demanda ha permitido que la inteligencia artificial de China conmocione al mundo en unos pocos meses.

Los cambios en el nuevo modelo de DeepSeek también son de gran importancia para la industria. Por un lado, reduce en gran medida el consumo de energía y los costos de computación de los modelos grandes, lo que sacude aún más las suposiciones de Wall Street sobre la escala de inversión en infraestructura de modelos superiores. Por otro lado, el amplio consenso sobre el código abierto en la industria de la inteligencia artificial de China ha promovido rápidamente el desarrollo de la industria nacional de la IA, acortando continuamente la distancia entre ella y los principales oponentes del mundo.

Otros creen que con la rápida recuperación de DeepSeek, el modelo R2 que planea lanzar en abril puede desafiar directamente al tan publicitado modelo GPT-5 de OpenAI. Si esta perspectiva realmente se materializa, entonces las diferentes ideas de China y Estados Unidos sobre el desarrollo de la inteligencia artificial pueden dar paso a una confrontación directa.