El 26 de febrero, en el tercer día de la Semana del Código Abierto, DeepSeek anunció la apertura de la eficiente biblioteca FP8GEMM DeepGEMM. Los lanzamientos de DeepSeek en los últimos tres días están todos relacionados con algoritmos y son más técnicos.
Chen Ran, fundador de la gran comunidad ecológica modelo OpenCSG (Open Expression), dio un ejemplo a China Business News: "En el pasado, DeepSeek regaló directamente un automóvil y les dijo a todos que el automóvil tiene un alcance de 900 kilómetros, pero ahora DeepSeek está investigando más profundamente para descubrir cómo puede conducir hasta 900 kilómetros". Por qué el modelo de DeepSeek puede lograr mejores resultados, existen algunos algoritmos y marcos correspondientes, y el código abierto de estos "andamios" favorece la construcción ecológica futura.
Específicamente para las palabras clave publicadas esta vez, GEMM (multiplicación general de matrices) es una operación básica en álgebra lineal, mientras que FP8GEMM es una operación de cálculo que utiliza números de punto flotante de 8 bits para la multiplicación de matrices. FP8 es un formato de punto flotante de baja precisión adecuado para aprendizaje profundo y computación de alto rendimiento. Puede reducir el uso de memoria y los requisitos de ancho de banda mientras mantiene una alta eficiencia informática.
Según DeepSeek, DeepGEMM admite tanto modelos densos tradicionales como operaciones GEMM de modelos MoE (Mixed Expert). Este código proporciona capacitación eficiente y soporte de inferencia para hardware de la serie V3/R1 basado en la arquitectura NVIDIA Hopper (como H100GPU).
DeepSeek mencionó que, basándose en esta base de código, se puede lograr un rendimiento de 1350+FP8TFLOPS (operaciones de punto flotante por segundo) en la GPU con arquitectura NVIDIA Hopper, aprovechando al máximo la potencia informática. Al mismo tiempo, el diseño de la base del código es muy simple, con solo una función central del núcleo y un tamaño de código de aproximadamente 300 líneas, pero supera a los núcleos optimizados por expertos en la mayoría de los tamaños de matriz.
¿Cuál es el impacto del código abierto DeepGEMM? El periodista hizo esta pregunta a DeepSeek, quien respondió que DeepGEMM resolvió los puntos débiles de la eficiencia informática y el consumo de recursos de los modelos grandes a través del FP8 y la optimización a nivel de hardware, y especialmente brindó soporte clave para la implementación del modelo MoE. Su comportamiento de código abierto no solo acelera la democratización de la tecnología, sino que también puede convertirse en la "infraestructura" del ecosistema informático de IA y promover el desarrollo de la industria en una dirección más eficiente y de bajo costo.
El 8PM es un estándar emergente para la informática de IA. Su alta eficiencia puede acelerar el entrenamiento de cientos de miles de millones de modelos de parámetros y reducir los requisitos de memoria de video. Cuando se implementan en dispositivos perimetrales o en la nube, los cálculos de baja precisión del FP8 pueden mejorar significativamente el rendimiento y reducir los costos. Por lo tanto, DeepGEMM de código abierto puede promover la popularización de la ecología del FP8, reducir el umbral para que lo utilicen los desarrolladores, promover más marcos y modelos para adaptarse al FP8 y acelerar la migración de la industria a la computación de baja precisión.
Además, los modelos MoE son difíciles de implementar debido a la complejidad computacional. El código abierto de DeepGEMM proporciona una referencia de implementación eficiente, que puede conducir a más aplicaciones MoE (como modelos multimodales y modelos eficientes en el borde).
Con respecto a la base de código fuente abierto de DeepSeek durante tres días consecutivos, Chen Ran dijo a los periodistas: "Estamos bastante sorprendidos por ello". El objetivo final de DeepSeek es mostrar cómo se fabrican sus R1 y V3. Él cree que los algoritmos publicados actualmente por DeepSeek son, en cierto sentido, un "andamio". "Debemos darles a todos un 'andamio' para que todos puedan continuar usando la línea de tecnología basada en DeepSeek y, en última instancia, la industria pueda construir un ecosistema basado en esto".
A largo plazo, Chen Ran cree que la iniciativa de código abierto de DeepSeek es muy significativa. Tiene estándares de modelo, estándares de herramientas y pilares ecológicos, para que el ecosistema pueda crecer.
Chen Ran juzgó que el código abierto de DeepSeek puede afectar a un grupo de profesionales que trabajan en la capa AIInfra. "DeepSeek básicamente proporciona la pila de tecnología y los modelos, pero carece de datos, pero otros también pueden reproducir los datos. Las personas en la capa AIInfra tendrán que encontrar nuevas direcciones". Pero también dijo que este tipo de código abierto es un arma de doble filo. Si puede hacer un buen uso del contenido de código abierto de DeepSeek, también podrá beneficiarse. "Si no lo usas bien, te golpearán".
Algunos practicantes también dijeron a los periodistas que el código abierto de DeepSeek es la aceleración de inferencia de la capa Infra. El código abierto de la tecnología subyacente de DeepSeek tendrá un impacto en los profesionales, pero puede que no sea demasiado grande.
"El impacto de DeepSeek en la industria acaba de comenzar y nadie puede adivinar el resultado". dijo el practicante antes mencionado.
DeepSeek ha anunciado previamente que abrirá 5 bibliotecas de código fuente una tras otra. A continuación, DeepSeek lanzará dos bibliotecas de códigos más esta semana. "Cada línea de código compartida se convertirá en una motivación colectiva para acelerar el desarrollo de la industria de la IA". dijo DeepSeek en el anuncio.