Los problemas del rey de la GPU. Como principal beneficiario de la lógica de "pepitas compra pala", el rendimiento récord de NVIDIA se ha convertido en el pilar de confianza que respalda el mercado de la IA generativa. Sin embargo, oculto detrás del excelente rendimiento, el problema más crítico es que debido a la capacidad de producción limitada, Nvidia no puede satisfacer la demanda del mercado de GPU. En agosto, los medios informaron que los pedidos del H100 estaban en cola hasta el primer trimestre o incluso el segundo trimestre del próximo año.
Según la especulación de GPUUtils, estimaciones conservadoras sugieren que los pedidos potenciales totales de GPU NVIDIA pueden superar los 20 mil millones de dólares, y la brecha de suministro para el modelo insignia GPUH100 llega a 430.000 unidades.
El director ejecutivo de NVIDIA, Jensen Huang, también dijo sin rodeos:
"Nuestros envíos actuales no están ni cerca de satisfacer la demanda".
La dificultad de Lao Huang radica en las dos tecnologías clave que están atrapadas en el cuello de Nvidia: el empaquetado CoWoS y la memoria HBM.
SK Hynix y TSMC son los jugadores detrás del cuello de Nvidia
La H100, lanzada en septiembre del año pasado, es la GPU más avanzada en la matriz de productos de Nvidia.
En comparación con el predecesor A100, su precio ha aumentado entre 1,5 y 2 veces, pero su rendimiento ha dado un salto cualitativo: la velocidad de inferencia aumenta 3,5 veces y la velocidad de entrenamiento aumenta 2,3 veces; si se utiliza la computación en clúster de servidores, la velocidad de entrenamiento se puede aumentar a 9 veces. En la formación de LLM, se puede acortar la carga de trabajo original de una semana a 20 horas.
Una NVIDIA H100 se compone principalmente de tres partes: hay tres pilas HBM a ambos lados del troquel central H100, y la capa más externa es el marco de empaque 2.5DCoWoS de TSMC.
Entre los tres componentes, el suministro del chip lógico central es el más simple. Se produce principalmente en la fábrica número 18 de Tainan de TSMC y utiliza el nodo de proceso 4N (en realidad, 5 nm+). Debido a la debilidad de los mercados de chips para centros de datos no relacionados con la IA, PC, teléfonos inteligentes y 5 nm+, la tasa de utilización de la capacidad de 5 nm+ de TSMC es actualmente inferior al 70%. Por tanto, no hay problema con el suministro de chips lógicos.
El principal déficit de suministro de Nvidia proviene de los seis HBM (High Bandwidth Memory, memoria de alto ancho de banda) en ambos lados del chip lógico, y el paquete CoWoS (Chiponwafer on Substrate, chip, oblea, paquete de sustrato) que conecta el chip lógico y HBM.
HBM es un chip de memoria DRAM basado en tecnología de apilamiento 3D. El principio técnico es apilar verticalmente varios chips DDR y conectarlos entre sí mediante tecnología de vías de silicio (TSV) y micro-bumps (μBmps), rompiendo así las limitaciones de rendimiento existentes, aumentando en gran medida la capacidad de almacenamiento y logrando una matriz combinada DDR con mayor ancho de banda, mayor ancho de bits, menor consumo de energía y menor tamaño.
Los chips de memoria son fundamentales para el rendimiento de la GPU, especialmente las GPU de alto rendimiento utilizadas para entrenar la IA. Las cargas de trabajo de inferencia y entrenamiento son tareas que requieren mucha memoria. A medida que la cantidad de parámetros en los modelos de IA aumenta exponencialmente, los pesos por sí solos elevan los tamaños de los modelos a terabytes. Por lo tanto, la capacidad de almacenar y recuperar datos de entrenamiento e inferencia de la memoria determina el límite superior del rendimiento de la GPU. Cuantos más modelos y aplicaciones de IA haya, mejor será para los fabricantes de HBM.
Si analizamos el mercado general de HBM, los dos gigantes coreanos del almacenamiento, SK Hynix y Samsung, tienen un monopolio absoluto, con una cuota de mercado combinada de alrededor del 90%.
HBM3 tiene procesos complejos, altos costos y capacidad de producción limitada. En 2022, HBM3 solo representará alrededor del 8% de la cuota de mercado en todo el mercado de HBM. Como única empresa del mundo capaz de producir HBM3 en masa, SK Hynix ha bloqueado firmemente el cuello de Nvidia H100; mientras que la generación anterior A100/A800 y el MI200 de AMD utilizan la tecnología HBM2E de generación anterior.
Sin embargo, la industria de los chips de memoria se encuentra actualmente en el proceso de actualización de HBM2E a HBM3. Según datos de Trendforce, se espera que la cuota de mercado de HBM3 supere el 60% para 2024. Los fabricantes de chips de memoria como Samsung y Micron están planificando activamente su implementación y están observando la cuota de mercado de SK Hynix.
El empaquetado avanzado es una tecnología que complementa la memoria HBM: para utilizar la pila HBM, se debe utilizar un empaquetado avanzado para conectar la memoria y la GPU.
El embalaje avanzado TSMC CoWoS utilizado en el H100 es una tecnología de embalaje 2.5D.
La solución de empaquetado 2D convencional es un método de integración en el que todos los chips y componentes pasivos se instalan horizontalmente en la superficie del sustrato, similar a un rompecabezas plano.
El embalaje avanzado 2,5D se puede comparar con bloques de construcción dispuestos horizontalmente. La pila de chips DDR multicapa de HBM debe depender de un empaquetado avanzado para poder realizarse.
La solución de empaquetado avanzada CoWoS de TSMC es una combinación de CoW y OS: primero, el chip se conecta a la oblea de silicio a través del proceso de empaquetado ChiponWafer (CoW), y luego el chip CoW se conecta al sustrato (onSubstrate) para integrarse en CoWoS.
La tecnología CoWoS ha mejorado enormemente la densidad de interconexión y el ancho de banda de transmisión de datos, al tiempo que reduce el tamaño del paquete, pero el proceso también es muy complejo, por lo que se utiliza principalmente en el mercado de alta gama.
Según informes de los medios, la capacidad de producción mensual actual de envases CoWoS de TSMC es de 8.000 piezas, y se espera que aumente a 11.000 piezas para finales de este año. Se espera alcanzar una capacidad de producción mensual de entre 14.500 y 16.600 piezas para finales de 2024. En otras palabras, se necesitará casi un año y medio para duplicar la producción.
La Ley de Moore alcanza su punto máximo y los envases avanzados se generalizarán
Soluciones como HBM, en las que se apilan varios chips y luego se unen mediante un embalaje avanzado, se han convertido en la idea de diseño principal para chips de alta gama en el mercado actual.
La razón detrás de esto es simple: los procesos avanzados ahora se han iterado a 7 nm, 5 nm y 3 nm, los nodos tecnológicos son cada vez más pequeños, la tecnología de producción y los procesos de fabricación son cada vez más complejos, y la inversión de capital en equipos de fabricación de circuitos integrados es cada vez mayor.
Tomemos como ejemplo procesos de 5 nm y más pequeños. En esta etapa, debido a las limitaciones de longitud de onda, la precisión de las máquinas de litografía ordinarias ya no puede cumplir con los requisitos del proceso, y las empresas deben recurrir a costosas máquinas de litografía EUV, cada una de las cuales cuesta hasta 1.400 millones de yuanes.
Junto con equipos como el grabado y la deposición de películas delgadas, el gasto en equipos para el proceso de 5 nm puede alcanzar los 3.100 millones de dólares, más del doble que el de 14 nm y aproximadamente cuatro veces el de 28 nm.
Para ser rentables, los fabricantes de chips sólo pueden encontrar otra forma de mejorar la densidad y el rendimiento de los transistores mediante la mejora pura del proceso hasta el diseño de chips a nivel de sistema.
Por otro lado, la cantidad de computación de datos global se ha disparado en los últimos 10 años, superando el total de los últimos 40 años. Con la creciente demanda de electrónica de consumo y chips para automóviles, incluso si el proceso de fabricación de chips puede alcanzar el límite físico teórico de la Ley de Moore (1 nm), aún no podrá satisfacer las necesidades de futuras aplicaciones industriales.
El embalaje avanzado, debido a que puede mejorar simultáneamente el rendimiento del producto y reducir los costos, se ha convertido en una solución para la era post-Moore.
La enorme demanda generada por la IA generativa ya está acelerando la iteración del embalaje tradicional al embalaje avanzado.
Morgan Stanley señaló que la ola de IA está promoviendo la aplicación a gran escala de tecnologías de envasado avanzadas 2,5D y 3D. Para 2030, los envases avanzados representarán más del 60% de todo el mercado de envases.
Según estimaciones de FutureMarketInsights, el mercado de envases avanzados, que actualmente ronda los 31.000 millones de dólares, seguirá expandiéndose a una tasa compuesta anual del 7,2% en los próximos diez años.
Los analistas de Morgan Stanley también señalaron que debido a que el crecimiento de los chips de IA supera las expectativas, se espera que los envases avanzados 3D/2,5D crezcan a un ritmo extremadamente rápido. La CAGR de 2021 a 2028 alcanzará aproximadamente el 22%.
Los dos líderes en memorias y embalajes avanzados de HBM, SK Hynix y TSMC, ya han probado la dulzura.
Los datos de TrendForce muestran que, aunque los envíos del mercado de chips de memoria y los precios unitarios de venta promedio han disminuido bajo la influencia de la desaceleración del mercado de la electrónica de consumo, los productos de HBM han contrarrestado la tendencia y están creciendo, con precios subiendo constantemente.
Algunos medios informaron que los pedidos de HBM de dos importantes fabricantes de almacenamiento, Samsung y SK Hynix, han aumentado rápidamente desde principios de 2023. El precio de HBM3, suministrado exclusivamente por SK hynix, se ha quintuplicado. Como producto de alto margen con un precio unitario mucho más alto que otras especificaciones de chips de memoria, las ganancias del HBM3 son aterradoras. TrendForce predice que, impulsados por la ola de IA, los ingresos totales de HBM alcanzarán los 8.900 millones de dólares en 2024, un aumento anual del 127%.
Al mismo tiempo, con las grandes ventas de NVIDIA H100 y AMDMI300, el paquete avanzado de TSMC también escasea.
Los analistas de Morgan Stanley dijeron:
Según nuestras comprobaciones de la cadena de suministro de fundición, una sola oblea CoWoS-S (y los procesos asociados) se vende entre 6000 y 12 000 dólares, dependiendo del tamaño del cliente/proyecto y la complejidad del diseño. Según la información revelada por TSMC en su reunión de informes financieros del segundo trimestre, se espera que entre el 6% y el 7% de los ingresos totales en 2023 provengan de pruebas y embalajes avanzados.
Estimamos que CoWoS puede aportar aproximadamente mil millones de dólares en ingresos a TSMC este año. A medida que TSMC continúa aumentando su capacidad de producción de CoWoS (la capacidad se duplicará en 2024, según los datos proporcionados en la convocatoria de ganancias del segundo trimestre de TSMC) y la fuerte demanda actual de chips de IA, es probable que este número crezca aún más. Por lo tanto, esperamos que la CAGR de los ingresos CoWoS de TSMC alcance el 40% entre 2023 y 2027.
acceso:
Centro comercial Jingdong