por Peter Grad, Tech Xplore
EUREKA genera funciones de recompensa de nivel humano en robots y tareas diversas. Combinado con el aprendizaje curricular, EUREKA desbloquea por primera vez habilidades rápidas de girar bolígrafos en una mano antropomórfica de cinco dedos. Crédito: arXiv (2023). DOI: 10.48550/arxiv.2310.12931
Los robots inteligentes están transformando nuestro universo. En el Hospital Universitario Robert Wood Johnson de Nueva Jersey, los robots asistidos por inteligencia artificial están llevando la seguridad de los médicos y pacientes a un nuevo nivel al escanear cada rincón de las instalaciones en busca de bacterias y virus nocivos y desinfectarlos con dosis precisas de luz germicida ultravioleta.
En la agricultura, brazos robóticos controlados por drones escanean diferentes tipos de frutas y verduras y determinan cuándo están en el punto ideal de madurez para ser cosechadas.
El sistema de inteligencia de espacio aéreo AI Flyways se encarga de las tareas desafiantes y a menudo estresantes de los despachadores de vuelo, quienes deben hacer cambios en el patrón de vuelo de último minuto debido a condiciones climáticas extremas repentinas, escasez de combustible, problemas mecánicos u otras emergencias. Optimiza soluciones, es más seguro, ahorra tiempo y es rentable.
Pero olvidemos esos logros: ¿Puede un robot realizar trucos impecables de hacer girar bolígrafos?
Un equipo de investigación de NVIDIA ha desarrollado uno que puede hacerlo. Y aunque la tarea sea impresionante, algunos expertos dicen que podría llevar meses, e incluso un año o más, para que los humanos dominen el fino arte de hacer girar los dedos, incluyendo manipulaciones desafiantes con nombres como Devil's Sonic, Backaround, Corkscrew y Bust X2. Lo destacado del proyecto de NVIDA es que el logro de girar bolígrafos fue enseñado mediante instrucciones generadas por IA.
En un artículo titulado "Eureka: Diseño de recompensa de nivel humano mediante la codificación de modelos de lenguaje grandes" que se encuentra en el servidor de preimpresión arXiv, los investigadores describen una "optimización evolutiva sobre el código de recompensa" en la cual los robots aprenden movimientos de manipulación fina complejos a través de instrucciones generadas por IA.
Esto promete una resolución de problemas cada vez más eficiente con LLM (modelos de lenguaje grandes), una manipulación física más avanzada y máquinas cada vez más inteligentes en nuestro futuro.
El equipo desarrolló Eureka, un algoritmo aplicado a GPT-4 que establece un sistema de recompensa para el aprendizaje de funciones motoras avanzadas en LLM. Las tareas se realizan en una aplicación de simulación física llamada Isaac Gym, desarrollada por NVIDIA. También participaron investigadores de UPenn, Caltech y la Universidad de Texas en Austin en el proyecto.
Los resultados obtenidos mediante el entrenamiento de Eureka fueron superiores en un 83% a las instrucciones diseñadas por humanos en las pruebas. La tarea rápida de girar bolígrafos fue una de las 29 habilidades complejas entrenadas con el algoritmo Eureka.
"La versatilidad y las substanciales mejoras en el rendimiento de Eureka sugieren que el principio simple de combinar modelos de lenguaje grandes con algoritmos evolutivos es un enfoque general y escalable para el diseño de recompensas, un conocimiento que puede ser aplicable de manera general a problemas de búsqueda difíciles y abiertos", dijo Anima Anandkumar, directora principal de investigación en IA de NVIDIA y autora del artículo de Eureka.
El gimnasio Isaac simula actividad física en un entorno tridimensional. Las sesiones de entrenamiento en paralelo masivo generan rápidamente posibles soluciones para numerosas manipulaciones mucho más rápido que los humanos o los sistemas de cálculo tempranos. Según los investigadores, el gimnasio puede mejorar la velocidad de entrenamiento en un factor de 1,000.
La retroalimentación de los operadores humanos puede incorporarse a los algoritmos de entrenamiento. Los investigadores dicen que esto actuaría como un "poderoso copiloto" en tareas especialmente desafiantes.
Otras tareas realizadas a través del entrenamiento de Eureka incluyen abrir armarios y cajones, manejar tijeras y lanzar y atrapar pelotas.
Eureka recopila estadísticas del progreso de cada sesión y ajusta el código para mejorar continuamente los resultados.
Según Shital Shah, un ingeniero de investigación principal en Microsoft Research, "El proverbial ciclo de retroalimentación positiva de auto-mejora podría estar a la vuelta de la esquina, lo que nos permite ir más allá de los datos y capacidades de entrenamiento humano".
Más información: Yecheng Jason Ma et al, Eureka: Diseño de recompensas a nivel humano mediante la codificación de grandes modelos de lenguaje, arXiv (2023). DOI: 10.48550/arxiv.2310.12931
Sitio web del proyecto: eureka-research.github.io/
Información de la revista: arXiv © 2023 Science X Network