Uno de los elementos más pasados ​​por alto por el público, la red del centro de datos es en realidad responsable de todas las comunicaciones entre los nodos. Sin embargo, NVIDIA sabe que hay centros de datos con millones de GPU en el horizonte y, para los modelos de IA más rápidos, deberán estar interconectados, incluso entre múltiples instalaciones. Es por eso que NVIDIA presentó hoy Spectrum-XGS Ethernet, una extensión de la plataforma de red Spectrum-X diseñada para interconectar múltiples centros de datos geográficamente dispersos en uno solo.Súper fábrica de IA.

La compañía dice que Spectrum-XGS elimina las limitaciones de capacidad de una sola instalación al introducir redes con reconocimiento de distancia que ofrecen un rendimiento predecible y de baja latencia en campus, ciudades y continentes.

La tecnología se entrega principalmente a través de actualizaciones de software y firmware a los conmutadores Spectrum-X y ConnectX SuperNIC existentes, en lugar de a través de silicio nuevo. Spectrum-XGS proporciona control de congestión autoajustable optimizado para enlaces de larga distancia, gestión precisa de la latencia que minimiza la fluctuación y telemetría integral de extremo a extremo, lo que permite a los operadores visualizar y controlar el tráfico de la red en múltiples sitios.

NVIDIA informa que estas mejoras casi duplican el rendimiento de NCCL (Biblioteca de comunicación colectiva) para trabajos de capacitación de múltiples GPU y múltiples nodos y experimentos a gran escala, lo que hace que las cargas de trabajo de IA distribuidas sean más eficientes. NVIDIA posiciona Spectrum-XGS como un nuevo eje de crecimiento para la infraestructura de IA: después del escalado dentro de servidores y dentro de centros de datos, el escalado cruzado conecta las instalaciones en un tejido informático unificado.

Los operadores de hiperescala se están preparando para adoptar este enfoque. CoreWeave será una de las primeras empresas en conectar múltiples instalaciones con Spectrum-XGS. La compañía utilizará sus sitios distribuidos como una supercomputadora, brindando a los clientes una mayor capacidad agregada y operaciones optimizadas para experimentos a escala gigabit y ejecuciones de capacitación en producción.

Spectrum-XGS es parte de la plataforma Spectrum-X y se demostró en la conferencia Hot Chips. Se espera que se revelen más detalles en la conferencia Hot Chips, pero los entrenamientos masivos en todo el continente ya no son una quimera. Con soluciones como Spectrum-XGS, el único cielo (y la red) es el límite.