Recientemente, el presentador de UP de Bilibili "aunque Zhang Heihei" compartió un video,Muestra los resultados de las pruebas de la versión pura de Apple M3Ultra ejecutando el modelo DeepSeekR1 de 671 mil millones de parámetros. Su velocidad es incluso más rápida que la de ocho tarjetas gráficas A100, pero el costo es mucho menor.
Para ejecutar el modelo DeepSeekR1 de 671 mil millones de parámetros generalmente se requiere un servidor de nivel profesional equipado con entre 6 y 8 A100. El precio total supera fácilmente el millón de yuanes, lo que es casi imposible de pagar para los usuarios comunes.
Sin embargo, la versión completa de M3Ultra solo requiere un MacStudio para lograr un rendimiento similar y es extremadamente rentable.
Los resultados de las pruebas muestran que cuando se ejecuta el modelo DeepSeekR1, el rendimiento de ocho tarjetas gráficas A100 es de 16,41 Tokens/s, mientras que la versión completa de M3Ultra alcanza los 15,78 Tokens/s en formato GGUF.
Después de cambiar al formato MLX que puede aprovechar la memoria unificada, la velocidad aumentó a 19,17 Tokens/s, superando las 8 tarjetas gráficas A100. Además, cuando M3Ultra ejecutó el modelo de parámetros DeepSeekV3671 mil millones, la velocidad también alcanzó 19,66 tokens/s.
Sin embargo, esto no significa que el M3Ultra pueda superar al A100 en todos los escenarios. Cuando un solo usuario realiza una inferencia de modelo único, depende principalmente del ancho de banda y la capacidad de la memoria y no puede aprovechar plenamente el potencial del A100. En escenarios de inferencia multiusuario y entrenamiento de modelos grandes, M3Ultra es completamente incapaz de compararse con A100.
Además, M3Ultra obtuvo buenos resultados en la prueba de velocidad de inferencia del modelo de lenguaje grande.Ya sea el modelo Llama3.170B, Gemma227B o Qwen2.514B, su velocidad es significativamente mejor que la de otros chips de la serie M. En comparación con M2Ultra, la velocidad aumenta un 13%, 34% y 18% respectivamente.
La versión pura de M3Ultra probada esta vez está equipada con 512 GB de memoria unificada y el precio total es de 74.249 yuanes. Para la mayoría de los usuarios, si no necesitan ejecutar un modelo a gran escala, la capacidad de la memoria unificada se puede reducir adecuadamente para ahorrar costos.