Tang Xiaoou, líder de IA de China y fundador de SenseTime, falleció a la edad de 55 años. Su último discurso público fue en la ceremonia de apertura de la Conferencia Mundial de Inteligencia Artificial el 6 de julio. Como un conocido erudito y practicante a la vanguardia del campo de la inteligencia artificial, Tang Xiaoou dijo que antes de acostarse todas las noches, escuchaba las conversaciones cruzadas del maestro Yu Qian mientras pensaba: "¿Cómo puede una máquina superar a un alma tan interesante? No lo creo".
En su discurso de ese día, compartió las historias de tres estudiantes Wang Xiaogang, He Kaiming y Lin Dahua que persiguieron sus sueños en el campo del aprendizaje profundo, y enfatizó las contribuciones originales hechas por jóvenes académicos chinos en la investigación de grandes modelos. También expresó su emoción: En el campo de la inteligencia artificial, una nueva generación de estudiantes ha comenzado con éxito en Shanghai.
Mirando hacia atrás en la historia, Tang Xiaoou mencionó que el Premio Turing 2018 fue otorgado a tres premios en profundidad: Joshua Bengio, Geoffrey Hinton y Yann LeCun. El padre del aprendizaje, quien presionó el primer timbre en esta puerta fue el avance trascendental en el reconocimiento de voz de aprendizaje profundo realizado por Jeffrey Hinton y el académico chino de Microsoft Deng Li en 2011. En 2012, también lograron avances trascendentales en la competencia de reconocimiento de imágenes.
¿Qué estaban haciendo Tang Xiaoou y sus alumnos en los primeros años de aprendizaje profundo? Habló del primer estudiante: Wang Xiaogang.
Wang Xiaogang era un estudiante universitario en la clase junior de la Universidad de Ciencia y Tecnología de China y fue el primero en la clase 00. Durante su maestría, estudió en el laboratorio de Tang Xiaoou y luego fue al MIT para estudiar un doctorado. Después de graduarse del doctorado, regresó al laboratorio de Tang Xiaoou en la Universidad China de Hong Kong como profesor. De 2011 a 2013, en dos conferencias importantes en el campo de la visión, CVPR (Conferencia Internacional sobre Visión por Computadora y Reconocimiento de Patrones) e ICCV (Conferencia Internacional sobre Visión por Computadora), hubo 29 artículos sobre aprendizaje profundo en todo el mundo, 14 de los cuales fueron del laboratorio de Tang Xiaoou y 15 fueron realizados por otros laboratorios de todo el mundo.
"Tenemos 18 proyectos que aplican el aprendizaje profundo a los problemas de visión por primera vez en el mundo, incluido el reconocimiento facial, la detección facial, la reconstrucción facial, la detección de objetos, la postura humana, la superresolución de imágenes, el reconocimiento de formas tridimensionales y otros problemas centrales de la visión por computadora. En la puerta del aprendizaje profundo, tocamos el timbre 18 veces". Dijo Tang Xiaoou.
Presentó que Wang Xiaogang también tiene la tarea de hacer que el reconocimiento facial automático sea mejor que el ojo humano, algo que se hizo antes que Facebook. En 2015, Wang Xiaogang lideró un equipo que derrotó al equipo de Google y ganó el primer campeonato mundial de ImogeNet (una competencia internacional basada en clasificación de imágenes y reconocimiento de objetos) en la historia de los académicos chinos.
El segundo estudiante es He Kaiming, quien obtuvo el máximo puntaje en el examen de ingreso a la Universidad de Guangdong en 2003. Estudió física en la Universidad de Tsinghua para obtener su título universitario y obtuvo su doctorado en el laboratorio de Tang Xiaoou en la Universidad China de Hong Kong. Tang Xiaoou dijo que He Kaiming publicó su primer artículo mientras estudiaba una maestría en el laboratorio y ganó el mejor artículo en CVPR. Este fue el primer mejor artículo de Asia en los 25 años de historia de CVPR. En ese momento, Tang Xiaoou bromeó con He Kaiming, diciendo que había alcanzado la cima tan pronto como tomó medidas y que su carrera académica solo iría cuesta abajo a partir de ese momento. Como resultado, empezó a trabajar en Microsoft y Facebook y fue ascendiendo.
El primer trabajo de He Kaiming fue en MSR (Microsoft Research). Antes de 2015, el aprendizaje profundo solo podía entrenarse en más de 20 capas como máximo. He Kaiming introdujo un canal de conexión directa en cada capa de la red, resolviendo así el problema de la transferencia de gradiente en redes profundas y ganando el mejor artículo en 2016. Después de esto, se pueden entrenar de manera efectiva más de cien capas de aprendizaje profundo. En la era de los modelos grandes, los modelos grandes con Transformer como núcleo, incluida la serie GPT, generalmente también adoptan esta estructura para admitir el apilamiento de cientos de capas.
Tang Xiaoou concluyó que He Kaiming hizo que la red fuera más profunda y Google hizo que la entrada a la red fuera más amplia, lo que condujo al gran modelo actual.
El segundo trabajo de He Kaiming, MaskR-CNN, se realizó en Facebook. Propuso por primera vez un marco de algoritmo y detección de objetos verdaderamente de alto rendimiento y ganó el mejor artículo en ICCV 2017. Tang Xiaoou dijo que He Kaiming es la única persona en el mundo que ha ganado los mejores artículos de CVPR e ICCV como primer autor tres veces en menos de diez años después de graduarse. Por primera vez, aplicó la idea de la autocodificación basada en código original al aprendizaje no supervisado en el campo visual, abriendo la puerta al aprendizaje autosupervisado en el campo de la visión por computadora y extendiéndolo a campos tridimensionales, de audio e incluso de IA.
El tercer estudiante, Lin Dahua, estudió en la Universidad de Ciencia y Tecnología de China para obtener su licenciatura, su maestría en la Universidad China de Hong Kong y su doctorado en el MIT. Mientras estudiaba su doctorado en el MIT en 2010, ganó el mejor trabajo estudiantil en NIPS. En 2014, regresó al laboratorio de Tang Xiaoou como profesor.
El primer trabajo de Lin Dahua fue OpenMMLab. Comenzó con un pequeño equipo en 2018 y se convirtió en el sistema de código abierto de algoritmo visual más influyente del mundo a través del boca a boca sin inversión en promoción. Actualmente, cuenta con usuarios en más de 140 países y regiones de todo el mundo.
Tang Xiaoou también presentó otros dos resultados del trabajo de Lin Dahua, el modelo multilingüe en lenguaje grande "Scholar·Puyu" que se lanzará próximamente con 100 mil millones de parámetros y 8K, y LandMark, un modelo 3D a gran escala de la vida real a nivel de ciudad con 200 mil millones de parámetros y que cubre 100 kilómetros cuadrados.
Con respecto a los logros de los tres estudiantes en el campo de la inteligencia artificial, Tang Xiaoou comentó: Wang Xiaogang sembró muchas semillas originales en los primeros años del auge del aprendizaje profundo; He Kaiming sentó las bases del aprendizaje profundo de manera muy firme y profunda; Lin Dahua lo hizo florecer mediante el desarrollo y grandes modelos.
Tang Xiaoou dijo: "Estoy muy contento de que este gran árbol haya comenzado a dar frutos. Hace apenas dos semanas, nuestro gran modelo de conducción autónoma se destacó entre 9155 artículos y ganó el premio CVPR 2023 Best Paper Award".
Citando estadísticas de Google Scholar, dijo que este fue el primer mejor artículo en las tres principales conferencias internacionales sobre visión por computadora realizado por académicos chinos en más de 40 años de reforma y apertura. El autor principal del artículo era Ph.D. presentado por Wang Xiaogang. Además, OpenMMLab fue creado por Chen Kai, Ph.D. presentado por Lin Dahua. Lu Chaochao, autor de otro artículo sobre reconocimiento facial que supera al ojo humano, fue realizado por el laboratorio de Tang Xiaoou. También se graduó con un doctorado en la Universidad de Cambridge y regresó a Shanghai. Actualmente está trabajando con el único ganador del Premio Turing de China, el Sr. Yao Qizhi, en el Instituto de Investigación Qizhi de Shanghai para participar en investigaciones teóricas básicas sobre IA. "Una nueva generación de estudiantes ha comenzado con éxito en Shanghai."
Al final de su discurso, Tang Xiaoou agradeció una vez más a Shanghai y a estos estudiantes, y citó una frase de la película "Hello Teacher" de Yu Qian, un "alma interesante" que creía que era difícil de superar en IA: "No te conocí en el mejor momento, pero te conocí y pasé este mejor momento".