Ampliar / Un robot de Google controlado por RT-2. El viernes, Google DeepMind anunció Robotic Transformer 2 (RT-2), un modelo de visión-lenguaje-acción (VLA) "único en su tipo" que utiliza datos recopilados de Internet para mejorar el control robótico mediante comandos en lenguaje común. El objetivo final es crear robots de propósito general que puedan navegar por entornos humanos, similares a robots ficticios como WALL-E o C-3PO.

Cuando un humano quiere aprender una tarea, a menudo lee y observa. De manera similar, RT-2 utiliza un modelo de lenguaje grande (la tecnología detrás de ChatGPT) que ha sido entrenado con texto e imágenes encontrados en línea. RT-2 utiliza esta información para reconocer patrones y realizar acciones incluso si el robot no ha sido entrenado específicamente para hacer esas tareas, un concepto llamado generalización.
Por ejemplo, Google afirma que RT-2 puede permitir que un robot reconozca y deseche basura sin haber sido entrenado específicamente para hacerlo. Utiliza su comprensión de lo que es la basura y cómo se suele desechar para guiar sus acciones. RT-2 incluso ve envases de alimentos desechados o cáscaras de plátano como basura, a pesar de la ambigüedad potencial.

Ampliar / Ejemplos de habilidades robóticas generalizadas que RT-2 puede realizar y que no estaban en los datos de robótica. En cambio, las aprendió de raspados en la web. En otro ejemplo, The New York Times cuenta cómo un ingeniero de Google dio la orden "Recoge el animal extinto" y el robot RT-2 localizó y seleccionó un dinosaurio de una selección de tres figurillas en una mesa.
Esta capacidad es notable porque los robots típicamente se han entrenado a partir de una gran cantidad de puntos de datos adquiridos manualmente, lo cual dificulta el proceso debido al tiempo y el costo elevado de cubrir cada escenario posible. En pocas palabras, el mundo real es un caos dinámico, con situaciones cambiantes y configuraciones de objetos. Un ayudante robótico práctico necesita poder adaptarse sobre la marcha de maneras imposibles de programar explícitamente, y ahí es donde entra en juego RT-2.
Más de lo que se ve a simple vista
Con RT-2, Google DeepMind ha adoptado una estrategia que aprovecha las fortalezas de los modelos de IA transformadora, conocidos por su capacidad para generalizar información. RT-2 se basa en trabajos anteriores de IA en Google, incluido el modelo de Lenguaje e Imagen Pathways (PaLI-X) y el modelo de Lenguaje Incorporado Pathways (PaLM-E). Además, RT-2 también se entrenó conjuntamente con datos de su modelo predecesor (RT-1), que se recopilaron durante un período de 17 meses en un entorno de "cocina de oficina" por 13 robots.
La arquitectura RT-2 implica el ajuste fino de un modelo de VLM preentrenado en datos de robótica y web. El modelo resultante procesa imágenes de la cámara del robot y predice las acciones que el robot debe ejecutar.
Redimensionar / Google ajustó un modelo de VLM en datos de robótica y web. El modelo resultante toma imágenes de la cámara del robot y predice acciones para que el robot realice. Dado que RT-2 utiliza un modelo de lenguaje para procesar la información, Google eligió representar las acciones como tokens, que son fragmentos tradicionales de una palabra. "Para controlar un robot, debe entrenarse para generar acciones", escribe Google. "Abordamos este desafío representando las acciones como tokens en la salida del modelo, similares a los tokens de lenguaje, y describimos las acciones como cadenas que pueden ser procesadas por tokenizadores estándar de lenguaje natural."

En el desarrollo de RT-2, los investigadores utilizaron el mismo método de descomponer las acciones del robot en partes más pequeñas que con la primera versión del robot, RT-1. Descubrieron que al convertir estas acciones en una serie de símbolos o códigos (una representación "cadena"), podían enseñarle al robot nuevas habilidades utilizando los mismos modelos de aprendizaje que utilizan para procesar datos web.
El modelo también utiliza razonamiento en cadena de pensamiento, lo que le permite realizar un razonamiento de múltiples etapas, como elegir una herramienta alternativa (una roca como martillo improvisado) o elegir la mejor bebida para una persona cansada (una bebida energética).
Redimensionar / Según Google, el razonamiento en cadena de pensamiento permite un modelo de control de robot que realiza acciones complejas cuando se le indica. Google dice que en más de 6,000 pruebas, se descubrió que RT-2 se desempeñó tan bien como su predecesor, RT-1, en las tareas para las que fue entrenado, conocidas como tareas "vistas". Sin embargo, cuando se probó con escenarios nuevos y "no vistos", RT-2 casi duplicó su rendimiento al 62 por ciento en comparación con el 32 por ciento de RT-1.

Aunque el RT-2 muestra una gran capacidad para adaptarse a nuevas situaciones, Google reconoce que no es perfecto. En la sección "Limitaciones" del documento técnico del RT-2, los investigadores admiten que si bien incluir datos web en el material de entrenamiento "mejora la generalización sobre conceptos semánticos y visuales", no le otorga mágicamente al robot nuevas habilidades para realizar movimientos físicos que aún no ha aprendido de los datos de entrenamiento del robot predecesor. En otras palabras, no puede realizar acciones que no haya practicado físicamente antes, pero mejora en el uso de las acciones que ya conoce de nuevas formas.
Si bien el objetivo final de Google DeepMind es crear robots de propósito general, la compañía sabe que todavía queda mucho trabajo de investigación por delante antes de lograrlo. Sin embargo, tecnologías como el RT-2 parecen ser un paso sólido en esa dirección.