2024 será un gran año en la intersección de la IA generativa/grandes modelos básicos y la robótica. Desde el aprendizaje hasta el diseño de productos, el potencial de las aplicaciones es apasionante. Los investigadores de robótica DeepMind de Google son uno de los muchos equipos que exploran el potencial de esta área. En una publicación de blog de hoy, el equipo destaca las investigaciones en curso destinadas a brindar a los robots una mejor comprensión de lo que los humanos queremos que hagan.

Tradicionalmente, la vida de un robot se centra en realizar repetidamente una única tarea. Los bots de propósito único tienden a ser muy buenos en esto, pero incluso así pueden tener dificultades cuando surgen cambios o errores inadvertidos.

El AutoRT recientemente lanzado está diseñado para utilizar modelos básicos grandes para una variedad de propósitos diferentes. En un ejemplo estándar dado por el equipo de DeepMind, el sistema utiliza primero un modelo de lenguaje visual (VLM) para mejorar el conocimiento de la situación. AutoRT gestiona una flota de robots que trabajan juntos y están equipados con cámaras para capturar el diseño del entorno y los objetos que contiene.

Al mismo tiempo, los grandes modelos de lenguaje también pueden proponer tareas que el hardware, incluidos los ejecutores de terminales, puede realizar. Muchos creen que los modelos de lenguaje son la clave para desbloquear la robótica, permitiéndoles comprender de manera efectiva instrucciones en lenguaje más natural y reducir la necesidad de habilidades codificadas.

El sistema ha sido sometido a pruebas exhaustivas durante los últimos siete meses. AutoRT es capaz de coordinar hasta 20 robots y 52 dispositivos diferentes simultáneamente. En total, DeepMind ha recopilado aproximadamente 77.000 pruebas, incluidas más de 6.000 tareas.

Otra novedad del equipo es RT-Trajectory, que utiliza entrada de vídeo para el aprendizaje de robots. Muchos equipos están explorando el uso de videos de YouTube como una forma de entrenar robots a escala, pero RT-Trajectory agrega una capa interesante al superponer bocetos 2D de movimientos de brazos encima de los videos.

"Estas trayectorias, en forma de imágenes RGB, proporcionan señales visuales prácticas de bajo nivel al modelo a medida que aprende estrategias de control del robot", señaló el equipo.

DeepMind dijo que cuando se probó en 41 tareas, la tasa de éxito de este entrenamiento fue el doble que el entrenamiento RT-2, con un 63% y un 29% respectivamente.

"RT-Trajectory explota la gran riqueza de información sobre el movimiento del robot que está presente en todos los conjuntos de datos de robots pero que actualmente está infrautilizada", señaló el equipo. "RT-Trajectory no sólo representa otro paso en el camino hacia la construcción de robots que puedan moverse de manera eficiente y precisa en nuevas situaciones, sino que también desbloquea conocimientos a partir de conjuntos de datos existentes".