MLCommons anunció oficialmente los resultados de las pruebas comparativas de rendimiento de MLPerf inference v3.1 para el modelo de lenguaje grande de 6 mil millones de parámetros y el modelo de procesamiento de lenguaje natural y visión por computadora GPT-J. El procesador de CPU Intel y el acelerador de IA tuvieron un buen rendimiento y son bastante competitivos en la inferencia de IA.
Los resultados del entrenamiento de MLCommonsAI y los resultados de las pruebas comparativas de rendimiento de HuggingFace publicados anteriormente en junio mostraron que el acelerador Intel Gaudi2AI puede superar por completo el rendimiento del acelerador NVIDIA H100 en modelos de lenguaje visual avanzado.Se puede considerar la única alternativa viable a NVIDIAH100/A100., los últimos resultados lo confirman nuevamente.
En el modelo GPT-J, la consulta del servidor GPT-J-99, GPT-J-99.9 del acelerador Intel Gaudi2 y el rendimiento de inferencia de muestra fuera de línea son 78,58 veces/segundo y 84,08 veces/segundo respectivamente.
En comparación con los productos de la competencia, H100 solo tiene 1,09 veces (servidor) y 1,28 veces (fuera de línea) ventajas de rendimiento sobre Gaudi2. Gaudi2 tiene ventajas de rendimiento 2,4 veces (servidor) y 2 veces (fuera de línea) sobre A100.
Vale la pena mencionar queLos resultados presentados por Gaudí2 utilizan el tipo de datos FP8 con una precisión del 99,9%.
El software Gaudi2 se actualiza cada 6 a 8 semanas y continuará mejorando el rendimiento de referencia de MLPerf y ampliando la cobertura del modelo.
Al mismo tiempo, Intel presentó 7 pruebas comparativas de inferencia basadas en los procesadores escalables Xeon de cuarta generación de SapphireRapids, incluido el modelo GPT-J.
Los resultados muestran que el Xeon de cuarta generación funciona muy bien cuando maneja cargas de trabajo generales de IA, incluidos modelos de visión, procesamiento del lenguaje, traducción de voz y audio, así como el modelo de recomendación de aprendizaje profundo DLRMv2 más grande y el modelo ChatGPT-J.
A partir de ahora,Intel sigue siendo el único proveedor que envía resultados públicos de CPU utilizando software de ecosistema de aprendizaje profundo estándar de la industria.
Según los últimos resultados,Usando GPT-J para resumir un comunicado de prensa de 1000 palabras de aproximadamente 1000-1500 palabras, el Xeon de cuarta generación puede completar dos párrafos por segundo en modo fuera de línea y un párrafo por segundo en modo de servidor en tiempo real.
también,Intel presenta por primera vez los resultados de la prueba MLPerf para procesadores Xeon CPUMax, que integra hasta 64 GB de memoria de alto ancho de banda HBM3, es la única CPU que puede alcanzar una precisión del 99,9 % para GPT-J, lo cual es muy adecuado para aplicaciones con requisitos de precisión extremadamente altos.
Visita la página de compra:
Tienda insignia de Intel