En un episodio reciente del Joe Rogan Podcast, el director ejecutivo de NVIDIA, Jensen Huang, recordó el punto de inflexión clave con respecto a los orígenes del aprendizaje profundo y el destino de la empresa:El avance del aprendizaje profundo comenzó en 2012 y se basó en la configuración de interconexión de doble tarjeta SLI de dos tarjetas gráficas GTX 580 que no estaban diseñadas para IA.
Huang Renxun reveló que el núcleo de aprendizaje profundo de la IA actual y el hardware utilizado para la primera operación de su red básica es la tarjeta gráfica para juegos de alta gama GTX 580 basada en la arquitectura Fermi y con 512 núcleos CUDA.
Aunque esta tarjeta gráfica se diseñó originalmente para juegos de alto nivel, sus poderosas capacidades de computación paralela se han convertido sin darse cuenta en la piedra angular del entrenamiento rápido en aprendizaje profundo.
En 2012, los investigadores Alex Krizhevsky, Ilya Sutskever y Geoffrey Hinton de la Universidad de Toronto utilizaron un par de tarjetas gráficas GTX 580 de 3 GB para entrenar el famoso modelo AlexNet.
Esta red de aprendizaje profundo con aproximadamente 60 millones de parámetros se destacó en la competencia de reconocimiento de imágenes ImageNet de ese año con una sorprendente ventaja del 70% sobre el algoritmo diseñado manualmente en ese momento.
Huang Renxun señaló que los desarrolladores de AlexNet optimizaron el algoritmo para ejecutarlo en paralelo en dos GTX 580, intercambiando datos solo cuando era necesario, lo que acortó considerablemente el tiempo de entrenamiento. Esto también convirtió a la GTX 580 en la primera tarjeta gráfica del mundo que ejecuta redes de IA de aprendizaje profundo/aprendizaje automático.
Curiosamente, cuando se alcanzó este hito, la inversión de NVIDIA en el campo de la IA era mínima y la mayor parte de su investigación y desarrollo todavía se centraba en gráficos y juegos 3D.
Fue la aplicación exitosa de AlexNet en GTX 580 lo que hizo que NVIDIA se diera cuenta del enorme potencial del aprendizaje profundo. Huang Renxun dijo que la compañía inmediatamente trasladó sus esfuerzos de financiación, desarrollo e investigación a la tecnología de aprendizaje profundo en 2012.
Esta transformación finalmente condujo a la supercomputadora NVIDIA DGX original en 2016, la arquitectura Volta con el núcleo Tensor de primera generación y la posterior tecnología DLSS.
