¡Se ha lanzado la última prueba de inferencia de modelos grandes GPT de MLPerf! Esta empresa nacional de potencia informática vuelve a ocupar el primer lugar en el mundo, con un rendimiento hasta 1,8 veces mayor que el de NVIDIA H100.A medida que las aplicaciones AIGC como ChatGPT desencadenaron una ola de grandes modelos, la capa de potencia informática, como infraestructura, se convirtió en la primera industria en beneficiarse.
Sin embargo, problemas como la alta demanda de potencia informática y los altos costos se han convertido en puntos débiles comunes para que las empresas implementen modelos grandes y es más probable que restrinjan el desarrollo de la IA: los parámetros de los modelos grandes aumentan día a día y el cuello de botella en el suministro de energía informática es inminente, lo que crea una enorme contradicción entre los dos.
Cómo explorar mejores soluciones de potencia informática de modelos grandes es un enfoque común en la industria.
Recientemente, la evaluación autorizada mundial MLPerf anunció los últimos resultados de la evaluación de inferencia. Esta es la primera vez que MLPerf introduce la prueba de inferencia de modelos grandes GPT. La tasa de participación ha alcanzado un nuevo récord, con más de 13.500 resultados de rendimiento presentados por Nvidia, Intel, Google, Qualcomm y otras empresas.
En MLPerfInference3.1, la tarjeta informática MoffetAI S30 ocupó el primer lugar en potencia informática de tarjeta única, 4 tarjetas y 8 tarjetas en el modelo grande GPT-J (6 mil millones de parámetros).
Esta es la tercera defensa consecutiva del título de Mo Xin en MLPerf.
Anteriormente, Ink Core ganó el primer lugar en MLPerfInference2.0 y 2.1 durante dos años consecutivos.
Tarjeta informática Ink core S30
Los logros del núcleo de tinta han aportado direcciones de innovación viables a soluciones de potencia informática de modelos a gran escala.
Los hechos han demostrado que la innovación colaborativa de hardware y software que combina modelos de IA con plataformas informáticas puede liberar un mayor potencial de potencia informática.Esto también demuestra una vez más que las tecnologías innovadoras representadas por la computación dispersa serán la clave para el desarrollo de la potencia informática en la era de los grandes modelos.
Ink Core participa en la división abierta MLPerf, que, según el organizador MLCommons, tiene como objetivo fomentar la innovación. Por lo tanto, los concursantes pueden explorar formas de mejorar la potencia informática mediante la colaboración de software y hardware.
En el modelo grande GPT-J en MLPerf, en comparación con la solución de aceleración de hardware pura H100 del proceso de 4 nm, la tarjeta informática Ink Core S30 del proceso de 12 nm pasóMétodo de "algoritmo doble disperso original + colaboración de hardware",Logró una ventaja de hasta 1,8 veces.
El modelo GPT-J en esta evaluación es un modelo de IA generativa. El rendimiento de la tarjeta informática Ink Core S30 en los modos de 8 tarjetas, 4 tarjetas y una sola tarjeta es 170,59, 91,57 y 23,28 (muestras/s) respectivamente, alcanzando 1,6, 1,8 y 1,8 veces el rendimiento de NVIDIA H100, lo que demuestra las capacidades de los productos Ink Core en tareas AIGC.
Al ganar tres veces, el modelo grande con potencia informática fue el primero en "entregar la prueba" y la colaboración entre software y hardware continuó innovando. MLPerf ha probado rigurosamente la solidez del producto Ink Core varias veces y también ha explorado un nuevo camino para el desarrollo de potencia informática de modelos grandes.
01
Computación dispersa: las "existencias potenciales" de modelos grandes obtienen reconocimiento en el mercado
Los excelentes resultados continuos del núcleo de tinta se deben principalmente al diseño colaborativo de software y hardware basado en el algoritmo de dispersión.
En la era de los grandes modelos, la importancia de la computación dispersa es evidente: el tamaño de un modelo de IA es directamente proporcional a su potencial de dispersión.
En otras palabras, cuanto más grande es el modelo, mayor es la posibilidad de que el algoritmo sea disperso y el grado de aceleración de los cálculos dispersos también es mayor. Para modelos generales de lenguajes grandes, la computación dispersa puede generar una aceleración decenas de veces.
El algoritmo dual disperso original de Inkcore, combinado con el diseño colaborativo de software y hardware, convierte al chip Inkcore Antoum® en el primer chip de IA de gran aumento disperso del mundo, que admite hasta 32 veces la dispersión: esta es la clave para batir récords de Inkcore en este MLPerf.
Cuanto más grande es el modelo, más obvia es la ventaja de la computación dispersa, especialmente en la situación actual donde los parámetros de modelos grandes como GPT a menudo alcanzan decenas de miles de millones o cientos de miles de millones, lo que hace que el foso del núcleo de tinta sea más estable.
La fortaleza del producto Ink Core y la tendencia general de computación dispersa también han sido reconocidas por la industria:El proceso de comercialización del núcleo de tinta ha logrado avances importantes, ayudando a las empresas a acelerar las aplicaciones de IA.
Recientemente, Ink Core se convirtió oficialmente en uno de los proveedores que respaldan ByteMLPerf.
Fuente: sitio web ByteMLPerf
Dirección del proyecto: https://github.com/bytedance/ByteMLPerf/blob/main/README.md
Actualmente, la plataforma informática Ink Core AI puede admitir modelos grandes con diferentes niveles de parámetros, incluidos BLOOM, OPT, GPT-J, LLaMA, StableDiffusion, etc.
Al mismo tiempo, tiene las características de alto rendimiento, baja latencia y bajo consumo de energía, lo que alivia la dificultad de la potencia informática y realmente ofrece a las empresas soluciones de potencia informática de modelo grande "fáciles de usar" y "asequibles".
02
La computación dispersa, que trae cambios fundamentales en la potencia informática, ayuda al desarrollo de modelos grandes
La solución informática dispersa de Ink Core no solo puede aliviar el problema actual de la potencia informática, sino que también abre un nuevo espacio para el desarrollo continuo de la IA.
La computación dispersa reduce la cantidad de cálculo de los modelos de IA, lo que significa que los modelos grandes pueden aumentar la cantidad de parámetros en varios órdenes de magnitud sin generar cantidades de cálculo excesivas. La contradicción entre el crecimiento de parámetros de los modelos grandes y el cuello de botella en la potencia informáticaSe espera que se resuelva fundamentalmente.
Al mismo tiempo, debido a la reducción en el monto del cálculo,También se han resuelto los puntos débiles de los modelos grandes, como los altos requisitos de potencia informática, el alto consumo de energía y los altos costos, logrando un efecto beneficioso para todos.
Chip Antoum con núcleo de tinta: el primer chip AI de gran aumento del mundo, que admite hasta 32 veces la escasez
Los excelentes resultados de tres MLPerfs consecutivos no solo demuestran la solidez de los productos principales de tinta, sino que también aportan nuevas revelaciones a la industria:Con la ayuda de tecnologías como la computación dispersa, se espera que el desarrollo y la aplicación de modelos grandes marquen el comienzo de un espacio de desarrollo más amplio, acelerando la proliferación de AIGC y otras aplicaciones en todos los ámbitos de la vida.
03
Acerca de MLPerf
MLPerf fue establecido por el ganador del Premio Turing, David Patterson, en conjunto con las principales instituciones académicas de Google, Stanford y la Universidad de Harvard. Es la prueba comparativa de rendimiento de IA internacional más autorizada e influyente para realizar un seguimiento y una evaluación oportunos de los requisitos y el rendimiento de la informática de IA en rápido crecimiento.