Después de mostrar sus habilidades culinarias, el robot desarrollado por el equipo chino de Stanford lanzó un nuevo video "Un día en la vida de Mobile ALOHA" esta mañana temprano, hora de Beijing, que muestra docenas de habilidades de tareas domésticas como regar flores, limpiar la habitación, preparar café, afeitar al dueño, lavar platos, jugar con gatos, tirar basura, lavar ropa, cambiar fundas de edredón y guardar ropa. Se le puede llamar un "ama de llaves integral".






Los internautas comentaron: "Lo más raro es que haya vida en los ojos".

La gente lleva mucho tiempo preocupada por la "paradoja de Moravec", un fenómeno contraintuitivo según el cual "las tareas que los humanos encuentran fáciles son extremadamente difíciles para la inteligencia artificial, y viceversa".

En otras palabras, un robot que pueda realizar tareas domésticas es muy raro.

Pero no seas demasiado feliz. Aunque MobileALOHA tiene "ojos vivos", sus movimientos todavía están controlados por humanos (ver la imagen a continuación) y no es una operación autónoma completamente inteligente.


Uno de los líderes del equipo dijo que el control humano es temporal y que ya están estudiando cómo cerrar la brecha entre el control humano y el autocontrol de los robots. Tony Z. Zhao, otro líder del equipo, dijo con optimismo: "2024 será el año del robot, ¡y este (robot de limpieza) es sólo el comienzo!".

La mayor importancia de MobileALOHA es que sus capacidades de control de movimiento son más poderosas que sistemas similares que cuestan entre 5 y 10 veces más, lo que demuestra la viabilidad de los robots universales. Es posible que pronto llegue un robot doméstico económico y fácil de usar.

ALOHA, un sistema de hardware de código abierto de bajo costo para teleoperación bimanual, es un sistema de hardware de operación de control remoto a dos manos de código abierto de bajo costo, es decir, un brazo robótico de código abierto. Su algoritmo ActionChunkingwithTransformers (ACT) utiliza el modelo de red neuronal Transformers, por lo que tiene capacidades de aprendizaje por imitación. En solo 15 minutos de demostración, el brazo robótico puede aprender una acción, realizando un aprendizaje de imitación de extremo a extremo directamente a partir de demostraciones reales y recopiladas a través de una interfaz de operación remota personalizada.

Según el equipo chino antes mencionado, MobileALOHA puede completar diversas tareas complejas con sólo 50 demostraciones. El costo es de sólo 32.000 dólares estadounidenses (alrededor de 220.000 yuanes) y el software y el hardware son todos de código abierto.

El equipo presentó en detalle la configuración de hardware de MobileALOHA en el documento: los más caros son el brazo robótico y la base móvil, de los cuales la base móvil es relativamente barata entre productos similares; el sensor está equipado con 2 cámaras de muñeca y 1 cámara superior; equipado con fuente de alimentación a bordo y cálculos, es decir, batería de 1,26 kWh que pesa 14 kg. Todos los cálculos durante la recopilación e inferencia de datos se realizaron en una computadora portátil de consumo con una GPU Nvidia 3070ti (8 GB de VRAM) e Intel i7-12800H.


Piezas de alto valor en la lista de materiales

Jim Fan, un "investigador de celebridades de Internet" en Nvidia y el primer pasante en OpenAI, predijo anteriormente con optimismo que 2024 será el primer año en que la comunidad de inteligencia artificial se levantará por completo para contrarrestar la paradoja de Moravec. "No ganaremos inmediatamente, pero estaremos en el camino hacia la victoria".

Este no es sólo un momento de emoción. Diversos desarrollos en la industria están surgiendo en una corriente interminable. Jim enumeró el desarrollo de modelos y plataformas básicos para futuros robots en 2023:

1. Grandes modelos multimodales que utilizan brazos robóticos como dispositivos físicos de entrada/salida: VIMA, PerAct, RvT (NVIDIA), RT-1, RT-2, PaLM-E (Google), RoboCat (DeepMind), Octo (Berkeley, Stanford, CMU), etc.;

2. Algoritmos que cierran la brecha entre el Sistema1 (responsable del control de bajo nivel) y el Sistema2 (responsable del razonamiento de alto nivel) (permitiendo que el sistema utilice el razonamiento de alto nivel para tomar decisiones y comprender, y transformar estas decisiones en operaciones y control reales): Eureka (NVIDIA), CodeasPolicies (Google), etc.;

3. Progresos asombrosos en hardware potente: Tesla Optimus Prime, Figure, 1X, Apptronik, Sanctuary, Agility+Amazon, Unitree, etc.;

4. Los datos siempre han sido el talón de Aquiles de la robótica. La comunidad de investigación está planificando conjuntamente el próximo ImageNet (un proyecto clave para avances en el aprendizaje profundo de la inteligencia artificial), como la apertura del conjunto de datos OpenX-Embodiment (RT-X). Aunque el conjunto de datos aún no es lo suficientemente diverso, es un paso importante;

5. La simulación y los datos sintéticos desempeñarán un papel clave en la resolución de problemas de destreza de robots e incluso de visión por computadora en su conjunto;

Las bases se están sentando paso a paso. A principios de 2024, tenemos motivos para esperar el sorprendente debut de robots más potentes.