NVIDIA lanza una solución de "entrenamiento" autónomo de IA para entrenar robots para instalar GPU y cortar bridas de cables en el laboratorio

El 17 de junio, hora local de Estados Unidos, el Laboratorio de Investigación de Agentes Incorporados Generales (GEAR Lab) de NVIDIA anunció un nuevo plan de superación personal para robots: a través de un "equipo de entrenamiento" compuesto por agentes de programación de IA, se diseña un proceso de capacitación para el brazo del robot casi sin intervención humana, de modo que el robot pueda aprender a cortar ataduras de plástico, organizar piezas pequeñas e incluso insertar con precisión la GPU en la ranura de expansión de la placa base.

Esta solución se basa en un "arnés de agentes" llamado ENPIRE: es como un shell de software que envuelve el modelo grande, lo que permite a los agentes de programación de IA llamar a varias herramientas y tener capacidades de memoria, gestión de contexto, control de restricciones y bucles de retroalimentación para planificar, ejecutar, evaluar e iterar automáticamente tareas de entrenamiento de robots. Nvidia dijo que el marco fue desarrollado por el equipo de GEAR Lab junto con investigadores de la Universidad Carnegie Mellon y la Universidad de California, Berkeley.

Jim Fan, jefe de IA de NVIDIA, describió en plataformas sociales que parte del laboratorio ahora puede "automejorarse" por la noche, y que los investigadores solo necesitan verificar el informe de entrenamiento por la mañana para comprender el progreso del robot la noche anterior. Medio en broma dijo que en un mundo ideal "todos se irían de vacaciones y Huang Renxun no se enteraría", y dijo que el equipo planea abrir el código fuente de los resultados relevantes para que cualquiera pueda construir su propio "laboratorio de robots autónomos" en casa.

El marco ENPIRE incluye actualmente cuatro módulos principales: primero, proporciona reinicio automático y verificación de resultados para tareas de robots; En segundo lugar, optimiza automáticamente las estrategias de control del robot; En tercer lugar, evalúa diferentes estrategias en paralelo en múltiples robots físicos; En cuarto lugar, maneja los casos de falla en el entrenamiento mediante el análisis de registros, la lectura de artículos y la mejora de la infraestructura de entrenamiento y los códigos de algoritmos. El equipo de investigación publicó un artículo técnico el 16 de junio que detalla los detalles de implementación y los resultados experimentales del sistema.

En el experimento, los investigadores introdujeron tres tipos de agentes de programación de IA convencionales: agentes basados en OpenAI Codex y GPT-5.5, agentes basados en Anthropic Claude Code Opus 4.7 y agentes basados en Dark Side of the Moon (Moonshot AI) Kimi Code K2.6. Estos agentes propondrán de forma independiente diferentes planes de mejora de algoritmos como equipo, realizarán experimentos de entrenamiento en robots reales y luego retendrán los cambios que pueden mejorar la tasa de éxito general y continuarán iterando.

Los resultados muestran que bajo la programación de ENPIRE, los agentes de programación de IA pueden diseñar automáticamente estrategias efectivas de superación personal para una variedad de tareas de operación del brazo robótico: en la tarea de operación de escritorio estándar Push-T, el robot necesita empujar con precisión los bloques de construcción en forma de T hasta el área objetivo; en otras tareas, se requiere que el robot organice pequeñas agujas en la caja de agujas, ate y corte bridas de plástico o inserte la GPU en la ranura de la placa base y la extraiga para reiniciarla después de cada ronda de pruebas. En múltiples tareas, el sistema finalmente logró una tasa de éxito del 99%, y el programa de capacitación impulsado por IA alcanzó una tasa de éxito de casi el 100%, incluso más rápido que el "enfoque participativo humano de vanguardia" que involucraba a humanos en las tareas de inserción y clasificación de pines.

Los experimentos también muestran que aumentar el número de agentes puede acelerar significativamente el proceso de aprendizaje: en la tarea Push-T, un equipo de 8 agentes aumentó la tasa de éxito al 99 % en solo 2 horas de investigación, mientras que un equipo de 4 necesitó 3 horas y un solo agente casi 5 horas para alcanzar el mismo nivel. Sin embargo, los investigadores también notaron que la eficiencia de la colaboración entre múltiples agentes no mejora linealmente. A medida que aumenta el número de agentes, se dedica más tiempo a resumir y comunicarse entre sí en lugar de programar robots para que realicen la capacitación.

El equipo de investigación también señaló varias limitaciones del sistema actual: durante muchos períodos de tiempo, el robot está inactivo en el banco experimental, esperando que el agente de programación de IA lea registros, escriba y depure código, o espere a que responda el modelo de lenguaje subyacente. Además, en términos de capacitación paralela, los agentes a veces no utilizan completamente los recursos informáticos existentes, lo que resulta en un rendimiento experimental por debajo del límite superior teórico. Desde una perspectiva de costos, el aumento en la cantidad de agentes y la frecuencia de capacitación también significa un consumo de tokens significativamente mayor, lo que está directamente relacionado con el hecho de que muchos proveedores de servicios de IA están considerando actualmente aumentar el método de cobro basado en tokens.

Aunque todavía existen deficiencias, Nvidia está claramente aumentando sus ambiciones en lo que llama "IA física". Con el abundante flujo de caja generado por la ola de IA, la compañía continúa invirtiendo en múltiples proyectos de robots: a fines de mayo de este año, NVIDIA anunció que cooperaría con Unitree, un competidor de la compañía china de robots Unitree, para proporcionar a las instituciones de investigación una "plataforma universal de referencia de robots humanoides" para la investigación y el desarrollo de robots de IA en general. A principios de junio de este año, Huang Renxun realizó una visita intensiva a Corea del Sur y se reunió con el presidente ejecutivo de Hyundai Motor Group, Chung Eui-sun, para discutir cómo expandir la fabricación a gran escala de robots de inteligencia artificial; Hyundai adquirió anteriormente Boston Dynamics, una empresa estadounidense famosa por su "perro robot" de cuatro patas Spot, y está promoviendo la comercialización del robot humanoide bípedo Atlas.

En este camino, ENPIRE y el equipo de agentes de programación de IA que lo respaldan se consideran componentes clave del "laboratorio de robots autónomos". Intentan transferir gran parte del trabajo de los expertos humanos en prueba y error, ajuste de parámetros y lectura de literatura a la IA, lo que permite a los investigadores desempeñar un papel más bien de "revisión diaria matutina". Con el código abierto de códigos y marcos relevantes, si sistemas de capacitación autónomos similares se volverán populares en el futuro entre universidades, empresas e incluso entusiastas individuales se convertirá en una ventana importante para observar la velocidad de implementación de la "IA física".