En 2024, además del continuo aumento de modelos grandes, el desarrollo de robots también marcará el comienzo de un clímax. "LLM multimodal que utiliza brazos robóticos como dispositivos físicos de entrada/salida, algoritmos para cerrar la brecha entre System1 y System2..." La tecnología robótica se desarrollará aún más rápidamente en 2024.
A finales del año pasado, Jim Fan, “investigador de celebridades de Internet” de Nvidia y primer pasante de OpenAI, tuiteó que, además de los modelos grandes, lo más importante en 2024 son los robots. Todavía estamos a unos tres años del momento ChatGPT de la "inteligencia encarnada".
Jim señaló que la gente ha estado preocupada durante mucho tiempo por la "paradoja de Moravec" (la paradoja de Moravec), que es un fenómeno que va en contra de la intuición de las personas, es decir, "las tareas que los humanos encuentran fáciles son extremadamente difíciles para la inteligencia artificial, y viceversa".
Sin embargo, Jim predice con optimismo que 2024 será el primer año en que la comunidad de inteligencia artificial se levante para contrarrestar esta paradoja. Jim dijo: "No ganaremos inmediatamente, pero estaremos en el camino hacia la victoria".
Al mismo tiempo, Jim enumeró el desarrollo de modelos básicos y plataformas para futuros robots en 2023:
1. LLM multimodal utilizando brazos robóticos como dispositivos físicos de entrada/salida: VIMA, PerAct, RvT (NVIDIA), RT-1, RT-2, PaLM-E (Google), RoboCat (DeepMind), Octo (Berkeley, Stanford, CMU), etc.
2. Algoritmos que cierran la brecha entre el Sistema1 (responsable del control de bajo nivel) y el Sistema2 (responsable del razonamiento de alto nivel) (que permiten al sistema utilizar el razonamiento de alto nivel para tomar decisiones y comprender, y transformar estas decisiones en operaciones y control reales): Eureka (NVIDIA), CodeasPolicies (Google), etc.
3. Progresos asombrosos en hardware potente: Tesla Optimus Prime, Figure, 1X, Apptronik, Sanctuary, Agility+Amazon, Unitree, etc.
4. Los datos siempre han sido el talón de Aquiles de la robótica. La comunidad de investigación está planificando conjuntamente el próximo ImageNet (un proyecto clave para avances en el aprendizaje profundo de la inteligencia artificial), como la apertura del conjunto de datos OpenX-Embodiment (RT-X). Aunque el conjunto de datos aún no es lo suficientemente diverso, es un importante paso adelante.
5. La simulación y los datos sintéticos desempeñarán un papel clave en la resolución de problemas de destreza de los robots e incluso de visión por computadora en general.
(1) NVIDIA Isaac puede simular la realidad 1000 veces más rápido que en tiempo real y el flujo de datos entrantes se expande a medida que aumenta la escala informática;
(2) Se pueden lograr efectos realistas mediante el trazado de rayos acelerado por hardware. Las representaciones fotorrealistas también vienen con anotaciones de verdad del terreno gratuitas, como segmentación, profundidad, pose 3D y más;
(3) El simulador puede incluso ampliar los datos del mundo real para crear conjuntos de datos más grandes, reduciendo así en gran medida el costoso trabajo de demostración manual. MimicGen (NVIDIA) es un ejemplo típico.