El 24 de febrero, la semana pasada, DeepSeek anunció que esta semana sería la Semana del Código Abierto y que abriría cinco bibliotecas de software de código abierto seguidas. Aproximadamente a las 9:30 am de hoy, DeepSeek anunció que había abierto la primera biblioteca de código de esta semana: FlashMLA, un eficiente núcleo de decodificación MLA optimizado para Hopper GPU.
En GitHub, el proyecto recibió más de 5000 colecciones de estrellas y 188 bifurcaciones (copias creadas) 6 horas después de su apertura. Después de enterarse del FlashMLA de código abierto de DeepSeek y el rápido crecimiento de la recopilación de estrellas y los datos de Fork, el CTO de una empresa que cotiza en Hong Kong dijo en comunicación con Sina Technology: "Es demasiado poderoso".
Otro inversor que se centra en la investigación e inversión en hardware de IA le dijo a Sina Technology después de revisar FlashMLA que este código abierto es un beneficio importante para las GPU nacionales. "Las tarjetas GPU nacionales anteriores eran muy débiles. Ahora podemos utilizar las ideas y metodologías de optimización proporcionadas por FlashMLA para intentar mejorar significativamente el rendimiento de las tarjetas nacionales. Incluso si la arquitectura es diferente, será natural que el rendimiento de inferencia de las tarjetas nacionales mejore más adelante".
Según la introducción oficial de DeepSeek, FlashMLA se basa en el eficaz núcleo de decodificación MLA de HopperGPU y puede optimizarse para secuencias de longitud variable.
En toda la ruta técnica de DeepSeek, MLA (Mecanismo de atención latente múltiple) es una de las tecnologías más centrales en los modelos V2 y V3 que ha lanzado la compañía. Se utiliza para resolver cuellos de botella en el rendimiento de la eficiencia informática y el uso de la memoria, lo que puede mejorar significativamente el entrenamiento del modelo y la eficiencia de la inferencia mientras se mantiene o incluso mejora el rendimiento del modelo.
Anteriormente, Zheng Weimin, académico de la Academia China de Ingeniería y profesor del Departamento de Ciencias de la Computación de la Universidad de Tsinghua, mencionó en una comunicación con Sina Technology: "La arquitectura MLA de desarrollo propio de DeepSeek ha desempeñado un papel clave en la reducción de los costos de capacitación de su propio modelo". Señaló: "MLA comprime KV al transformar el tamaño de caché del operador de atención, lo que permite almacenar más KVCache con la misma capacidad. Esta arquitectura, combinada con la transformación de la capa FFN en el modelo DeepSeek-V3, logra una capa MoE dispersa muy grande, lo que se convierte en la razón más importante para el bajo costo de capacitación de DeepSeek".
Esta vez, DeepSeek abre directamente el núcleo de decodificación MLA: FlashMLA, lo que significa que DeepSeek abrirá directamente el código subyacente del núcleo MLA de forma gratuita. Esto permite a la mayoría de los grupos de desarrollo reutilizar directamente el código base FlashMLA para completar la misma tarea con menos servidores GPU, lo que reduce directamente el costo de la inferencia. Sin duda, este es un gran beneficio para más grupos que esperan realizar optimización subyacente y desarrollo de aplicaciones de IA basadas en las capacidades de código abierto de DeepSeek.
Curiosamente, el núcleo de decodificación MLA abierto por DeepSeek esta vez está optimizado principalmente para Hopper GPU. En términos generales, Hopper GPU se refiere a los productos GPU de la serie H desarrollados en base a la arquitectura Hopper de NVIDIA. En la actualidad, NVIDIA ha lanzado varios chips de esta serie, como H100, H800 y H20.
Según DeepSeek, en términos de rendimiento de referencia, FlashMLA puede alcanzar una velocidad de memoria de 3000 GB/s y un límite superior de computación de 580 TFLOPS en la GPU NVIDIA H800SXM5.
La información pública muestra que, según las regulaciones de control de exportaciones de EE. UU., el límite de ancho de banda del H800 está establecido en 600 GB/s, que es más bajo que el de algunos productos emblemáticos. Esto significa que después de la optimización con FlashMLA, se espera que la utilización del ancho de banda de la memoria del H800 mejore aún más o incluso supere el límite superior teórico de la GPU H800, alcanzando lo último en acceso a la memoria, lo que permitirá a la comunidad de desarrollo "exprimir" completamente las capacidades de los chips NVIDIA de la serie H, lograr un rendimiento del modelo más sólido con menos chips y maximizar el valor de la GPU.
Un inversor que se centra en la investigación e inversión en hardware de IA dijo después de ver FlashMLA: "FlashMLA es una solución de optimización que puede hacer que LLM se ejecute más rápido y de manera más eficiente en H800. Es especialmente adecuado para tareas de IA de alto rendimiento. Su núcleo es acelerar el proceso de decodificación de modelos de lenguaje grandes y mejorar la velocidad de respuesta y el rendimiento del modelo. Esto es muy importante para tareas de generación en tiempo real (como chatbots, etc.). Promoverá en gran medida las capacidades y la experiencia del usuario de modelos grandes, y la velocidad será mejorado significativamente."
Aunque FlashMLA es una biblioteca de código optimizada para HopperGPU, para las GPU nacionales, este código abierto también es beneficioso. Después de revisar FlashMLA, los inversores antes mencionados dijeron que para las GPU nacionales, este código abierto es un beneficio importante. "Las tarjetas GPU nacionales anteriores eran muy débiles. Ahora podemos utilizar las ideas y metodologías de optimización proporcionadas por FlashMLA para intentar mejorar significativamente el rendimiento de las tarjetas nacionales. Incluso si la arquitectura es diferente, será natural que el rendimiento de inferencia de las tarjetas nacionales mejore más adelante".