Informe: Nvidia y sus principales clientes finalmente superan las dificultades de implementación del chip Blackwell

Hace un año, el director ejecutivo de Nvidia, Jensen Huang, dijo a los analistas que el proceso de transición para sus clientes de los chips de servidor de inteligencia artificial de la generación anterior a este chip sería "desafiante" debido al aumento significativo en la complejidad de la nueva generación de chips de inteligencia artificial de Blackwell. Dijo que para mejorar el rendimiento del chip, "se deben ajustar todos los aspectos, como el chasis del servidor, la arquitectura del sistema, la configuración del hardware y el sistema de suministro de energía".

De hecho, para muchos de los principales clientes de Nvidia, promover la implementación y el funcionamiento a gran escala de los servidores Blackwell alguna vez fue un problema difícil. Según dos empleados de Nvidia que brindan servicios a OpenAI y otros grandes clientes, y un empleado de Meta que experimentó personalmente problemas relacionados, durante la mayor parte del año pasado, OpenAI, Meta Platforms y sus proveedores cooperativos de servicios en la nube no han podido construir y utilizar dichos sistemas de manera estable. Por el contrario, los clientes pudieron implementar y utilizar con éxito los chips Nvidia AI anteriores de Blackwell a las pocas semanas de recibirlos, dijeron estas personas.

Las dificultades que han encontrado los principales clientes de Nvidia al utilizar su serie de chips Blackwell, especialmente los modelos Grace Blackwell, no parecen haber tenido un impacto serio en el negocio del gigante de los chips. Nvidia sigue siendo la empresa más valiosa del mundo, con una capitalización de mercado de 4,24 billones de dólares, y ha resuelto en gran medida muchos de los problemas técnicos que impedían a los principales clientes implementar la serie de chips rápidamente y a gran escala.

Sin embargo, si NVIDIA todavía encuentra problemas de implementación similares con sus futuros nuevos chips, competidores como Google pueden tener una buena oportunidad de abrirse paso, siempre y cuando estos fabricantes competidores puedan ayudar a los clientes a implementar chips a gran escala y más rápido para respaldar la investigación y el desarrollo de tecnología de inteligencia artificial de vanguardia. Estos problemas también pueden provocar una reducción de las ganancias de los proveedores de servicios en la nube que tienen dificultades para implementar chips a gran escala y, al mismo tiempo, ralentizar el progreso de la investigación y el desarrollo de las empresas de inteligencia artificial que dependen de estos chips para desarrollar modelos de inteligencia artificial más avanzados.

El contenido de este artículo se basa en entrevistas con empleados de NVIDIA y Metaverse, así como con personal de proveedores de servicios en la nube que utilizan chips NVIDIA y socios que brindan servicios de instalación de chips NVIDIA para centros de datos.

Para clientes como OpenAI y Meta, la incapacidad de construir grupos de chips a la escala esperada limitará su capacidad para entrenar modelos de inteligencia artificial a mayor escala. Según un empleado de Nvidia, aunque los clientes de Nvidia no se han quejado públicamente de problemas relacionados, algunos clientes han expresado en privado su descontento con el personal de acoplamiento de Nvidia.

Para compensar las pérdidas causadas a los clientes frustrados, Nvidia proporcionó a los clientes reembolsos parciales y descuentos el año pasado en respuesta a problemas relacionados con los chips Grace Blackwell, según un ejecutivo de un proveedor de servicios en la nube y un empleado de Nvidia involucrado en negociaciones relevantes.

Los ejecutivos de Nvidia y los proveedores de servicios en la nube dijeron que el problema radica principalmente en los servidores que conectan 72 chips Grace Blackwell; este tipo de diseño está destinado a aumentar en gran medida la velocidad de comunicación entre chips y permitir la operación colaborativa de un solo sistema. Este servidor se puede interconectar con otros servidores para formar un clúster a muy gran escala para proporcionar soporte de potencia informática para el entrenamiento de alta intensidad de modelos de inteligencia artificial.

Un portavoz de Nvidia dijo que la compañía había respondido a preguntas sobre el lento despliegue del sistema Grace Blackwell en 2024, y emitió un comunicado a la revista Information en ese momento, diciendo que el sistema era "la computadora más avanzada jamás creada" y que su implementación requería "investigación y desarrollo de ingeniería conjunta con los clientes".

La declaración también menciona: "NVIDIA está llevando a cabo una cooperación profunda con los principales proveedores de servicios en la nube, y sus equipos se han convertido en una parte integral de nuestro sistema y proceso de investigación y desarrollo de ingeniería. Las iteraciones de ingeniería relacionadas son un fenómeno normal en la industria y son parte de nuestras expectativas".

Sachin Karti, alto ejecutivo del negocio de infraestructura de OpenAI, emitió un comunicado diciendo que la cooperación de la nueva empresa con NVIDIA "está completamente dentro del cronograma para proporcionar soporte de potencia informática para nuestra hoja de ruta de I+D. Estamos aplicando completamente todos los chips NVIDIA disponibles para modelar el entrenamiento y la inferencia, lo que también promueve una rápida iteración de I+D y el lanzamiento de productos. Los múltiples modelos que hemos lanzado recientemente son la mejor prueba".

Un portavoz de Meta declinó hacer comentarios.

dolores de crecimiento

Hay señales de que Nvidia ha aprendido de sus problemas de implementación. La compañía no sólo está optimizando los sistemas Grace Blackwell existentes, sino que también está trabajando en mejoras a los servidores que llegarán a finales de este año basados en chips Vera Rubin de próxima generación.

Según dos personas involucradas en el diseño del chip, Nvidia lanzó el año pasado una versión mejorada del chip Grace Blackwell con un rendimiento más potente para garantizar que funcione de manera más estable que el producto original. Dijeron que este chip actualizado llamado GB300 ha mejorado su capacidad de disipación de calor, los materiales del núcleo y la calidad del conector.

Un empleado de Metaverse con conocimiento de la situación específica dijo que los ingenieros de Meta que encontraron fallas técnicas en el sistema Grace Blackwell de primera generación descubrieron que la dificultad de ensamblaje de los nuevos chips se había reducido considerablemente. Otro empleado de NVIDIA que brinda servicios para OpenAI reveló que algunos clientes como OpenAI ajustaron sus pedidos de chips Grace Blackwell que aún no habían llegado y, en su lugar, solicitaron pedidos adicionales para este producto actualizado.

El otoño pasado, Nvidia reveló a los inversores que la mayor parte de los ingresos por chips de su serie Blackwell provienen de servidores Grace Blackwell optimizados, y la compañía planea lograr una entrega de gran volumen de este servidor este año.

La empresa xAI de Elon Musk, que depende en gran medida de los chips Nvidia, parece estar a la vanguardia de la industria en la implementación de servidores Grace Blackwell. En octubre pasado, la compañía completó el despliegue de alrededor de 100.000 chips y los puso en funcionamiento en un centro de datos de Memphis. No está claro si esta estrategia de despliegue ha dado mejores resultados.

Construya primero, pruebe después

El objetivo de Nvidia al desarrollar chips Blackwell es muy claro: ayudar a los clientes a entrenar modelos de inteligencia artificial a una escala y una rentabilidad muy superior a las generaciones anteriores de chips de inteligencia artificial.

En los servidores de la generación anterior de Nvidia, los clientes sólo podían conectar hasta ocho chips entre sí y la velocidad de comunicación entre chips era lenta. El diseño central de la serie de chips Blackwell es combinar 72 chips Grace Blackwell en un solo servidor para reducir la cantidad de transmisión de datos entre diferentes servidores, liberando así recursos de red en el centro de datos y respaldando la capacitación y operación de modelos de inteligencia artificial a mayor escala.

Según un empleado de Oracle que participó en la construcción de clústeres de chips, construir clústeres de chips a gran escala de esta manera también puede mejorar la calidad de los modelos de inteligencia artificial entrenados en base a ellos. La intención original del sistema es reducir las fallas comunes de hardware durante el entrenamiento del modelo.

Sin embargo, el nuevo diseño de Nvidia también tiene sus propios defectos. La conexión altamente integrada de una gran cantidad de chips significa que el fallo de un solo chip puede desencadenar una reacción en cadena, provocando que todo el grupo compuesto por miles de chips quede paralizado o interrumpido. El costo para las empresas de reiniciar un proceso de capacitación interrumpido desde el nodo de guardado más cercano oscila entre miles y millones de dólares, según tres personas que han experimentado este tipo de interrupciones.

La implementación del sistema Grace Blackwell de NVIDIA ha estado llena de idas y vueltas desde el principio. En el verano de 2024, los fallos en el diseño de los chips provocaron retrasos en la producción en masa y empezaron a surgir varios problemas. Hace un año, después de que se entregara el primer lote de chips Blackwell a los clientes, los gabinetes de servidores continuaron experimentando sobrecalentamiento, fallas de conexión y otros problemas, lo que provocó que clientes principales como Microsoft, Amazon Cloud Technology, Google y Metaverse redujeran los pedidos y en su lugar compraran chips de la generación anterior.

Los empleados de varios proveedores de servicios en la nube que ordenaron chips Grace Blackwell dijeron que creían que Nvidia los entregó a los clientes antes de que el software y hardware relevantes estuvieran completamente depurados.

Pero un ex ejecutivo de Nvidia defendió la estrategia de la compañía, diciendo que los crecientes problemas experimentados por el servidor Grace Blackwell de 72 núcleos reflejaban el coraje de Huang para traspasar los límites de la tecnología en lugar de perseguir una filosofía empresarial segura. Los empleados actuales y anteriores de NVIDIA creen que no es realista esperar que NVIDIA prediga con precisión el rendimiento del chip en escenarios de implementación a gran escala para clientes como OpenAI y Meta.

Y hay indicios de que OpenAI ha logrado un uso a gran escala de los servidores de grupo de 72 núcleos de Nvidia. El jueves, OpenAI anunció que todo el proceso de desarrollo del último modelo de código de inteligencia artificial de la compañía, GPT-5.3-Codex, fue "diseñado conjuntamente por este sistema exclusivo, proporcionando potencia informática de capacitación y respaldando la implementación y operación".

Obstáculos para cobrar los ingresos

Según ejecutivos de dos proveedores de servicios en la nube, los retrasos en la implementación de chips durante el año pasado causaron pérdidas a algunos de los socios de servicios en la nube de OpenAI. Estas empresas habían invertido enormes sumas de dinero en el chip Grace Blackwell y originalmente esperaban que el chip estuviera en línea rápidamente y recuperara el costo. Los proveedores de servicios en la nube sólo pueden obtener ingresos relevantes después de que los clientes comiencen a utilizar el chip.

Según un ejecutivo de un proveedor de servicios en la nube involucrado en negociaciones relevantes, para aliviar la presión financiera, algunos proveedores de servicios en la nube negociaron un acuerdo de descuento con NVIDIA el año pasado, lo que les permitió pagar los chips en función de una proporción menor del uso real.

Según un empleado de NVIDIA y un miembro del personal del socio fabricante de NVIDIA, NVIDIA también ha procesado reembolsos para algunos clientes que devolvieron servidores.

Cuando los proveedores de servicios en la nube lanzan nuevas tecnologías, a menudo primero deben hacerse cargo de los costos relevantes y solo pueden recibir ingresos después de que los clientes comiencen a usar el hardware. Por tanto, el margen de beneficio en esta etapa suele ser bajo. Un documento muestra que Oracle perdió casi 100 millones de dólares en el arrendamiento de chips de la serie Blackwell en los tres meses hasta agosto del año pasado. La razón fue que hubo un retraso significativo entre el momento en que Oracle completó la depuración de los servidores y los entregó a los clientes, y el momento en que clientes como OpenAI comenzaron a usarlos y a pagar el alquiler.

El documento de presentación interna preparado para los ejecutivos de negocios en la nube de Oracle señaló que el negocio de arrendamiento de chips de Grace Blackwell tiene márgenes de beneficio bruto negativos, principalmente debido a problemas de implementación de chips relacionados con el centro de datos de OpenAI en Abilene, Texas, y ciclos de aceptación de clientes retrasados.

Desde entonces, Oracle ha dicho a los inversores que su negocio de inteligencia artificial en la nube eventualmente alcanzará un margen de beneficio bruto del 30% al 40%, una expectativa que cubre el período de inversión antes de que el centro de datos entre en funcionamiento.

Un portavoz de Oracle declinó hacer comentarios.