NVIDIA Research anunció hoy que ha desarrollado un nuevo agente de inteligencia artificial llamado "Eureka", que funciona con GPT-4 de OpenAI y puede enseñar de forma autónoma a robots habilidades complejas.
Visita la página de compra:
Resumen de productos de la serie NVIDIA de JD.com
La compañía dijo en una publicación de blog que Eureka, que puede escribir sus propios algoritmos de recompensa, es el primero en entrenar una mano robótica para realizar habilidades de giro rápido de bolígrafos como los humanos. Eureka también le ha enseñado al robot casi 30 tareas, como abrir cajones y gabinetes, lanzar y atrapar una pelota y operar tijeras.
"El aprendizaje por refuerzo ha logrado victorias impresionantes durante la última década, pero aún quedan muchos desafíos, como el diseño de recompensas, que sigue siendo un proceso de prueba y error", dijo en una publicación de blog Anima Anandkumar, directora senior de investigación de inteligencia artificial en NVIDIA y autora del artículo de Eureka. "Eureka es un primer paso en el desarrollo de nuevos algoritmos que integran métodos de aprendizaje generativo y de refuerzo para resolver tareas difíciles".
NVIDIA Research también lanzó la biblioteca de algoritmos de inteligencia artificial Eureka para que las personas realicen experimentos utilizando NVIDIA AIsaacGym, una aplicación de referencia de simulación física para la investigación del aprendizaje por refuerzo. IsaacGym se basa en NVIDIA Omniverse, una plataforma de desarrollo para crear herramientas y aplicaciones 3D basadas en el marco OpenUSD.
La locura por los agentes de inteligencia artificial se ha prolongado durante meses, incluido el surgimiento de agentes de inteligencia artificial autónomos como Auto-GPT, BabyAGI y AgentGPT en abril de este año.
El trabajo actual de NVIDIA Research se basa en trabajos anteriores, incluido el más reciente Voyager, un agente de inteligencia artificial creado con GPT-4 que puede jugar Minecraft de forma autónoma. Esta semana, el New York Times publicó un artículo sobre cómo convertir chatbots en agentes en línea. Jeff Clune, profesor de informática en la Universidad de Columbia Británica y ex investigador de OpenAI, dijo: "Esta es una enorme oportunidad de negocio con el potencial de generar billones de dólares en ingresos. Esto tiene enormes ventajas y un enorme impacto en la sociedad".
En un nuevo artículo de investigación titulado "Eureka: diseño de recompensa a nivel humano mediante la codificación de grandes modelos de lenguaje", dicen los autores, "Eureka aprovecha las extraordinarias capacidades de generación de punto cero, escritura de código y mejora del contexto de LLM de última generación como GPT-4 para desarrollar el código de recompensa".
Las recompensas resultantes se pueden utilizar para adquirir habilidades complejas mediante el aprendizaje por refuerzo. "En ausencia de indicaciones específicas para tareas o plantillas de recompensa predefinidas, las funciones de recompensa generadas por Eureka superan las recompensas de expertos diseñadas por humanos. En un conjunto de 29 entornos de RL de código abierto que contienen 10 morfologías de robots diferentes, Eureka superó a los expertos humanos en el 83% de las tareas, con una mejora normalizada promedio del 52%".
"Eureka es una combinación única de grandes modelos de lenguaje y la tecnología de simulación acelerada por GPU de NVIDIA", dijo Jim Fan, científico investigador senior de NVIDIA y colaborador del proyecto, en una publicación de blog. "Creemos que Eureka permitirá un hábil control de robots y brindará a los artistas una nueva forma de crear animaciones físicamente realistas".