El chip que logra el milagro de DeepSeek suena un toque de atención para Nvidia

En las últimas dos semanas, DeepSeek se ha convertido en un punto de acceso mundial. Especialmente en el mundo occidental, este sistema generativo de inteligencia artificial de China ha provocado un amplio debate. En los primeros 18 días de su lanzamiento, DeepSeek logró la asombrosa cifra de 16 millones de descargas. Este número es casi el doble del número de descargas del ChatGPT de su competidor OpenAI en el mismo período, lo que demuestra plenamente su fuerte atractivo en el mercado y su base de usuarios.

Según datos autorizados de la empresa de análisis de mercado Appfigures, la aplicación de DeepSeek encabezó la AppStore de Apple por primera vez el 26 de enero y ha seguido manteniendo su dominio global desde entonces. Las estadísticas de datos muestran que desde su lanzamiento a principios de este año, ha ascendido rápidamente a la cima de la clasificación de descargas de la App Store de Apple en 140 países y también ocupó la primera posición en la Play Store de Android en los Estados Unidos.

Como gran modelo de IA en China, DeepSeek ha podido captar esta atención. Además de su excelente desempeño, su bajo costo de capacitación también es la clave para atraer la atención global. En el artículo de hoy, echamos un vistazo a los chips y sistemas detrás de DeepSeek.

Léame de arquitectura de DeepSeek

En agosto de 2024, el equipo de DeepSeek publicó un artículo que describía un nuevo equilibrador de carga que había creado para interconectar elementos de su modelo base Mix of Experts (MoE: Mixture of Experts).

DeepSeek declaró en el artículo que para el modelo experto mixto (MoE), el desequilibrio de carga experto provocará un colapso del enrutamiento o un aumento de la sobrecarga computacional. Los métodos existentes suelen utilizar pérdidas auxiliares para promover el equilibrio de carga, pero las pérdidas auxiliares grandes introducirán gradientes de interferencia no despreciables en el entrenamiento, dañando así el rendimiento del modelo.

Para controlar el equilibrio de carga durante el proceso de entrenamiento sin generar gradientes no deseados, el equipo de DeepSeek propuso el equilibrio sin pérdidas (Loss-FreeBalancing), que se caracteriza por una estrategia de equilibrio de carga auxiliar sin pérdidas.

Específicamente, el equilibrio sin pérdidas primero aplicará el sesgo de experto a las puntuaciones de enrutamiento de cada experto antes de tomar decisiones de enrutamiento top-K. Al actualizar dinámicamente el sesgo de cada experto en función de su carga reciente, el equilibrio sin pérdidas siempre puede mantener una distribución equilibrada de las cargas de los expertos.

Además, dado que el equilibrio sin pérdidas no produce gradientes perturbadores, también eleva el límite superior del rendimiento del modelo obtenido del entrenamiento MoE. El equipo de DeepSeek también verificó el rendimiento del equilibrio sin pérdidas en modelos MoE con hasta 3 mil millones de parámetros y entrenado en hasta 200 mil millones de tokens. Los resultados experimentales muestran que, en comparación con la estrategia tradicional de equilibrio de carga de control de pérdida de paquetes auxiliares, la estrategia de equilibrio sin pérdidas logra un mejor rendimiento y un mejor equilibrio de carga.

Figura 1: El equilibrio sin pérdidas selecciona a los expertos en función de su puntuación de activación sesgada en cada paso del entrenamiento y actualiza este sesgo de experto después de cada paso del entrenamiento.

En el informe "Informe técnico de DeepSeek-V3" publicado a finales de 2024, el equipo de DeepSeek realizó una interpretación en profundidad de la arquitectura técnica de su modelo DeepSeek-V3, lo que nos proporciona más referencias para comprender la tecnología de la empresa.

En el informe afirmaron sin rodeos que, por consideraciones de futuro, la empresa siempre ha buscado modelos con buen rendimiento y bajo costo. Por lo tanto, en términos de arquitectura, DeepSeek-V3 todavía utiliza Atención latente de múltiples cabezas (MLA: Atención latente de múltiples cabezas) para una inferencia eficiente y DeepSeekMoE para lograr una capacitación rentable. Para lograr una capacitación eficiente, la solución del equipo de DeepSeek admite la capacitación de precisión mixta del FP8 y optimiza completamente el marco de capacitación. En su opinión, la formación de baja precisión se ha convertido en una solución prometedora para una formación eficiente y su desarrollo está estrechamente relacionado con los avances en las capacidades del hardware.

Figura 2: Marco general de precisión mixta utilizando el formato de datos del 8PM. Para mayor claridad, sólo se ilustran operadores lineales.

Gracias al soporte para la informática y el almacenamiento del FP8, el equipo de DeepSeek logró una formación acelerada y un uso reducido de la memoria de la GPU. En términos de marco de capacitación, diseñaron el algoritmo DualPipe para lograr un paralelismo de canalización eficiente, que tiene menos burbujas de canalización y oculta la mayor parte de la comunicación en el proceso de capacitación a través de la superposición de cálculo y comunicación.

Figura 3: Diagrama de arquitectura básica de DeepSeek-V3. Después de DeepSeek-V2, la empresa adopta MLA y DeepSeekMoE para una inferencia eficiente y capacitación económica.

El equipo de DeepSeek dice que esta superposición garantiza que a medida que el modelo se amplíe aún más, la empresa aún pueda utilizar expertos detallados en todos los nodos y, al mismo tiempo, lograr una sobrecarga de comunicación general casi nula, siempre y cuando mantenga una relación constante entre computación y comunicación.

Además, el equipo de DeepSeek ha desarrollado núcleos de comunicación eficientes entre nodos y todos para utilizar plenamente el ancho de banda InfiniBand (IB) y NVLink. La compañía también ha optimizado cuidadosamente el uso de memoria para que DeepSeek-V3 pueda entrenarse sin un costoso paralelismo tensorial.

Al combinar estos esfuerzos, el equipo de DeepSeek logró una alta eficiencia en la capacitación.

Tabla 1: Costos de capacitación de DeepSeek-V3, suponiendo que el precio de alquiler del H800 es de $2 por hora de GPU.

Según el énfasis del equipo de DeepSeek en el artículo, esto se logra mediante el codiseño de algoritmos, marcos y hardware de optimización. En la etapa de preentrenamiento, entrenar DeepSeek-V3 solo requiere 180KH800GPU horas por billón de tokens, es decir, solo 3,7 días en su clúster con 2048 H800GPU. Como resultado, la fase de capacitación previa de la empresa se completó en menos de dos meses y requirió 2664.000 horas de GPU. Incluyendo 119.000 horas de GPU para la extensión de la duración del contexto y 5.000 horas de GPU para el entrenamiento posterior, el entrenamiento completo de DeepSeek-V3 solo tomó 2,788 millones de horas de GPU.

Suponiendo que el precio de alquiler de la GPU H800 es de 2 dólares estadounidenses por hora, esto significa que su costo total de capacitación es de sólo 5,576 millones de dólares estadounidenses. El equipo de DeepSeek también enfatizó específicamente que los costos anteriores solo incluyen la capacitación oficial de DeepSeek-V3 y no incluyen los costos relacionados con investigaciones previas y experimentos de ablación sobre arquitectura, algoritmos o datos. A modo de comparación, el jefe de OpenAI, Sam Altman, dijo que entrenar GPT-4 requeriría más de 100 millones de dólares.

El 20 de enero, DeepSeek lanzó el modelo DeepSeek-R1, que agrega dos etapas de aprendizaje por refuerzo y dos etapas de ajuste supervisadas para mejorar las capacidades de razonamiento del modelo. DeepSeekAI cobra 6,5 veces más por el modelo R1 que por el modelo base V3. Posteriormente, DeepSeek lanzó Janus-Pro, una versión actualizada de su modelo multimodal Janus. El nuevo modelo mejora las estrategias de entrenamiento, la expansión de datos y el tamaño del modelo, mejorando la comprensión multimodal y la generación de texto a imagen.

Hasta ahora, DeepSeek se ha vuelto popular en todo el mundo.

El chip detrás de DeepSeek

Después del lanzamiento de DeepSeek, algunas discusiones sobre su sistema y su marco de investigación técnica también se extendieron por Internet, específicamente en términos de hardware. Debido a su costo extremadamente bajo, esto ha causado conmoción en todo el mercado de chips de IA. La fuerte caída de NVIDIA en los últimos días es el reflejo más directo de esta preocupación.

Como se mencionó anteriormente, DeepSeek dijo que el clúster utilizado para entrenar el modelo V3 solo tiene 256 nodos de servidor, cada uno con 8 aceleradores de GPU H800, para un total de 2048 GPU. Los analistas de nextplatform especulan que estas tarjetas GPU son versiones H800SXM5 de las tarjetas H800 de Nvidia, que tienen un rendimiento de punto flotante FP64 limitado a 1 teraflops y, por lo demás, son idénticas a la versión de 80 GB de las tarjetas H100 que la mayoría de las empresas de todo el mundo pueden comprar.

Entre ellos, las ocho GPU dentro del nodo están interconectadas con NVSwitch para crear un dominio de memoria compartida entre estas memorias de GPU, y el nodo tiene múltiples tarjetas InfiniBand (quizás una por GPU) para crear enlaces de alto ancho de banda a otros nodos en el clúster.

Específicamente para el H800, esta es la GPU que Nvidia lanzó originalmente en respuesta a las restricciones de exportación en Estados Unidos. Las regulaciones de prohibición de exportación de GPU de EE. UU. en ese momento restringían principalmente dos aspectos: la potencia informática y el ancho de banda. Entre ellos, el límite superior de potencia informática es 4800TOPS y el límite superior de ancho de banda es 600GB/s. La potencia informática del A800 y H800 es equivalente a la de la versión original, pero el ancho de banda es reducido.

Figura 4: Detalles del H800

Como se mencionó anteriormente, DeepSeek utiliza la versión H800SXM en el entrenamiento. Se entiende que la llamada arquitectura SXM es una solución de socket de alto ancho de banda para conectar aceleradores NVIDIA TensorCore a sus sistemas patentados DGX y HGX. Para cada generación de GPU NVIDIA Sensor Core, la placa HGX del sistema DGX está equipada con un tipo de zócalo SXM, que permite un gran ancho de banda, entrega de energía y otras funciones para su tarjeta secundaria GPU correspondiente.

Según los datos, una placa de sistema HGX especializada interconecta 8 GPU a través de NVLink, logrando un gran ancho de banda entre GPU. Las capacidades de NVLink permiten un flujo de datos extremadamente rápido entre las GPU, lo que les permite operar como una sola bestia de GPU sin pasar por PCIe ni necesidad de comunicarse con la CPU para intercambiar datos. NVIDIA DGXH800 conecta 8 SXM5H800, a través de 4 chips de conmutación NVLink, el ancho de banda de cada GPU es de 400 GB/s y el ancho de banda bidireccional total supera los 3,2 TB/s. Cada H800SXMGPU también está conectada a la CPU a través de PCIExpress, por lo que los datos calculados por cualquiera de las 8 GPU se pueden reenviar a la CPU.

Figura 5: Diagrama del marco básico SGX/HGXtoCPU

En los últimos años, las grandes empresas se han interesado cada vez más en NVIDIA DGX porque SXMGPU es más adecuado para implementaciones a gran escala. Como se mencionó anteriormente, las ocho GPU H800 están completamente interconectadas mediante la tecnología de interconexión NVLink y NVSwitch. En DGX y HGX, el método de conexión de 8 SXMGPU es diferente al de PCIe; Cada GPU está conectada a 4 chips NVLinkSwitch, lo que básicamente hace que todas las GPU funcionen como una GPU grande. Esta escalabilidad se puede ampliar aún más con el sistema NVIDIA NVLinkSwitch para implementar y conectar 256 DGXH800 para crear una fábrica de IA acelerada por GPU.

Figura 6: Diagrama básico del marco 8PCIeGPUtoCPU

DeepSeeK a los ojos de los analistas extranjeros

Basándose en estas GPU y sistemas, muchos analistas en Occidente han criticado al equipo de Deepseek por lograr este logro. Sin embargo, los analistas de nextplatform dijeron que si lee atentamente este documento de 53 páginas, encontrará que DeepSeek ha adoptado varias optimizaciones y métodos ingeniosos para crear el modelo V3. También creen verdaderamente que esto efectivamente ha reducido el problema de la ineficiencia y ha mejorado el rendimiento de entrenamiento e inferencia de DeepSeek en el hardware.

Creen que la innovación clave en el enfoque adoptado por el equipo de DeepSeek para entrenar el modelo base V3 es el uso de 20 de los 132 multiprocesadores (SM) de transmisión en la GPU Hopper como aceleradores de comunicación y programadores para los datos a medida que se ejecuta el entrenamiento, examinan los tokens y generan los pesos del modelo a partir de la profundidad de parámetros establecida a medida que los datos pasan por el clúster. Nextplatform especula que esta "superposición entre computación y comunicación puede ocultar la latencia de comunicación durante la computación", como afirma el documento V3, utilizando SM para crear lo que es efectivamente un controlador de caché L3 y un agregador de datos entre GPU que no están en el mismo nodo.

Como nextplatform compartió sobre su artículo, DeepSeek creó su propia DPU virtual de GPU para realizar varios procesamientos similares a SHARP relacionados con la comunicación entre todos en un clúster de GPU.

Como se mencionó anteriormente, el equipo de DeepSeek diseñó el algoritmo DualPipe para lograr un paralelismo de canalización eficiente. En este sentido, nextplatform señala que si DeepSeek puede aumentar la eficiencia computacional en estas 2.048 GPU hasta cerca del 100%, entonces el clúster comenzará a pensar que tiene 8.192 GPU (faltando algunas SM, por supuesto) funcionando de manera menos eficiente porque no tienen DualPipe. A modo de comparación, el modelo base GPT-4 de OpenAI se entrenó en 8.000 GPU Nvidia "Ampere" A100, lo que equivale a 4.000 H100 (más o menos).

Además, entre las innovaciones de DeepSeek también se incluyen el equilibrio de carga auxiliar sin pérdidas, el procesamiento de baja precisión de FP8, la actualización de operaciones matemáticas matriciales de alta precisión de resultados intermedios en el núcleo tensor a la unidad vectorial en el núcleo CUDA para mantener una representación de mayor precisión, el recalculo de todas las operaciones RMSNorm durante la retropropagación y el recalculo de todas las proyecciones ascendentes de MLA.

Aunque Dylan Patel de SemiAnalysis, una conocida organización de análisis de semiconductores, tiene dudas sobre los costos revelados por el equipo de DeepSeek. Pero también admiten que DeepSeek tiene ventajas.

SemiAnalysis dijo que DeepSeek-R1 puede lograr resultados comparables a OpenAI-o1, que se lanzó recién en septiembre. ¿Cómo logró DeepSeek ponerse al día tan rápido? Esto se debe principalmente a que el razonamiento se ha convertido en un nuevo paradigma. En comparación con antes, el razonamiento ahora puede repetirse más rápido y requerir menos cálculos, pero puede lograr beneficios significativos. Por el contrario, el modelo anterior se basaba en la capacitación previa, y el costo de la capacitación previa es cada vez mayor y es difícil lograr ganancias estables.

Señalaron que el nuevo paradigma se centra en habilitar capacidades de inferencia a través de la generación de datos sintéticos y RL en el entrenamiento posterior de los modelos existentes, lo que genera ingresos más rápidos a precios más bajos. Una barrera de entrada más baja junto con optimizaciones simples significa que DeepSeek puede replicar métodos o1 más rápido que nunca.

"El R1 es un muy buen modelo, no tenemos ninguna objeción al respecto y, objetivamente, es impresionante que haya alcanzado el límite del razonamiento tan rápidamente". Enfatizó el semianálisis. Concluyeron:

Por un lado, DeepSeekV3 utiliza tecnología de predicción multitoken (MTP: Multi-Token Prediction) a una escala sin precedentes. Estos módulos de atención adicionales (módulos de atención) pueden predecir varios tokens en lugar de uno solo. Esto mejora el rendimiento del modelo durante el entrenamiento y puede descartarse durante la inferencia. Este es un ejemplo de innovación algorítmica que mejora el rendimiento con un menor esfuerzo computacional. Hay algunas consideraciones adicionales, como mejorar la precisión del FP8 durante el entrenamiento;

Por otro lado, DeepSeekv3 también es un híbrido de modelos expertos, que son modelos grandes compuestos por muchos otros modelos pequeños que se especializan en diferentes campos. Una dificultad que enfrentan los modelos expertos híbridos es cómo determinar qué token dar a qué submodelo o "experto". DeepSeek implementa una "red de control" para enrutar tokens a los expertos apropiados de una manera equilibrada que no afecte el rendimiento del modelo. Esto significa que el enrutamiento es muy eficiente, con solo una pequeña cantidad de cambios de parámetros por token durante el entrenamiento en relación con el tamaño general del modelo. Esto no sólo mejora la eficiencia del entrenamiento, sino que también reduce los costos de inferencia;

Nuevamente, en el caso de R1, se beneficiará enormemente de tener un modelo base sólido (v3). Parte de la respuesta está en el aprendizaje por refuerzo (RL).

El aprendizaje por refuerzo tiene dos enfoques: formato (asegurar que proporcione resultados coherentes) y utilidad e inocuidad (asegurar que el modelo tenga

usar). Las capacidades de inferencia surgen cuando el modelo se afina en conjuntos de datos sintéticos;

SemiAnalysis reiteró que MLA es la tecnología innovadora clave de DeepSeek que reduce significativamente el costo de la inferencia. La razón es que MLA reduce la cantidad de caché KV requerida para cada consulta en aproximadamente un 93,3% en comparación con la atención estándar. La caché KV es un mecanismo en memoria en el modelo de convertidor que se utiliza para almacenar datos que representan el contexto de la conversación, reduciendo así los cálculos innecesarios.

Impacto potencial en los chips Nvidia

Como mencionamos al principio del artículo, después de que DeepSeek se hiciera popular, Nvidia respondió con un paso adelante. Porque si las grandes empresas tecnológicas estadounidenses empiezan a aprender de DeepSeek y eligen soluciones de inteligencia artificial más baratas, esto puede ejercer presión sobre Nvidia.

Posteriormente, Nvidia hizo comentarios positivos sobre el progreso de DeepSeek. La compañía dijo en un comunicado que el progreso de DeepSeek es una buena demostración de nuevas formas de operar modelos de IA. La compañía dijo que entregar tales modelos de IA a los usuarios requiere una gran cantidad de chips Nvidia.

Sin embargo, Kathy Wood, una conocida inversora y directora ejecutiva de Ark Investment, dijo en una entrevista que DeepSeek demostró que el éxito en el campo de la IA no requiere tanto dinero y aceleró el colapso de los costos.

Sun Wei, analista jefe de inteligencia artificial de Counterpoint Research, también dijo que la liquidación de Nvidia refleja las opiniones cambiantes de la gente sobre el desarrollo de la inteligencia artificial. Señaló además: "El éxito de DeepSeek desafía la creencia de que los modelos más grandes y una potencia informática más potente conducen a un mejor rendimiento, lo que representa una amenaza para la estrategia de crecimiento impulsada por GPU de Nvidia".

SemiAnalysis enfatizó que la velocidad de mejora del algoritmo es demasiado rápida, lo que también es perjudicial para Nvidia y las GPU.

El medio estadounidense "Fortune" incluso advirtió que DeepSeek está amenazando el dominio de la IA de Nvidia.

Como se mencionó anteriormente, DeepSeek ha utilizado chips más baratos y de menor rendimiento para construir sus últimos modelos, lo que también ha ejercido presión sobre Nvidia, y algunas personas temen que otras grandes empresas de tecnología puedan reducir la demanda de los productos más avanzados de Nvidia.

Kate Leaman, analista jefe de mercado de AvaTrade, dijo a Fortune: "A los inversores les preocupa que la capacidad de DeepSeek para trabajar con chips de IA más débiles pueda socavar el dominio de Nvidia en el hardware de IA, especialmente teniendo en cuenta que su valoración depende en gran medida de la demanda de IA".

Vale la pena mencionar que, según el informe de Tomshardware, el avance de la IA de DeepSeek pasa por alto el CUDA de NVIDIA de fábrica y, en su lugar, utiliza programación PTX similar a un ensamblaje, lo que hasta cierto punto aumenta las preocupaciones de todos sobre NVIDIA.

Según los informes, PTX (ParallelThreadExecution: Parallel Thread Execution) de Nvidia es una arquitectura de conjunto de instrucciones intermedia diseñada por Nvidia para su GPU. PTX se encuentra entre los lenguajes de programación de GPU de alto nivel (como CUDAC/C++ u otros lenguajes frontales) y el código de máquina de bajo nivel (streaming ensamblador o SASS). PTX es un ISA casi metálico que expone la GPU como un dispositivo informático de datos paralelos, lo que permite optimizaciones detalladas como la asignación de registros y ajustes de nivel de subprocesos/deformación que no son posibles con CUDAC/C++ y otros lenguajes. Una vez que PTX está en SASS, se optimiza para una generación específica de GPU Nvidia.

Al entrenar el modelo V3, DeepSeek reconfiguró la GPU H800 de Nvidia: de los 132 multiprocesadores de transmisión, asignó 20 para la comunicación de servidor a servidor, posiblemente para comprimir y descomprimir datos para superar las limitaciones de conexión del procesador y acelerar las transacciones. Para maximizar el rendimiento, DeepSeek también implementa algoritmos de canalización avanzados, posiblemente mediante un ajuste ultrafino del nivel de hilo/deformación.

El informe señaló que estas modificaciones van mucho más allá del alcance del desarrollo estándar a nivel CUDA, pero son muy difíciles de mantener.

Sin embargo, el estratega de Morningstar, Brian Colello, afirmó sin rodeos que la entrada de DeepSeek sin duda ha añadido incertidumbre a todo el ecosistema de inteligencia artificial, pero esto no ha cambiado el abrumador impulso detrás de este movimiento. "Creemos que la demanda de GPU de IA sigue superando la oferta", escribió en una nota. "Entonces, si bien los modelos más delgados y livianos pueden lograr más con la misma cantidad de chips, todavía creemos que las empresas de tecnología continuarán comprando todas las GPU que puedan como parte de esta fiebre del oro de la IA".

Los veteranos de la industria como el ex director ejecutivo de Intel, Pat Gelsinger, también creen que aplicaciones como la inteligencia artificial pueden aprovechar toda la potencia informática a la que tienen acceso. En cuanto al avance de DeepSeek, Gelsinger lo ve como una forma de agregar inteligencia artificial a una gran cantidad de dispositivos baratos en el mercado masivo.

SemiAnalysis reveló en su informe que los precios de la GPU H100 AWS han aumentado en muchas regiones desde el lanzamiento de DeepSeekV3 y R1. También es más difícil encontrar H200 similares. "Después del lanzamiento de V3, los precios del H100 se dispararon a medida que las tasas de monetización de GPU comenzaron a aumentar significativamente. Más inteligencia a un precio más bajo significa más demanda. Este es un cambio significativo con respecto a los lentos precios spot del H100 en meses anteriores". Semianálisis dijo,

Entonces, ¿cómo crees que se desarrollará DeepSeek? ¿Podrán los chips Nvidia seguir dominando el mundo?