No es ningún secreto que los modelos de base han transformado la IA en el mundo digital. Los modelos de lenguaje grandes (LLM) como ChatGPT, LLaMA y Bard han revolucionado la IA para el lenguaje. Si bien los modelos GPT de OpenAI no son los únicos modelos de lenguaje grandes disponibles, han obtenido el reconocimiento más generalizado por tomar textos e imágenes como entrada y proporcionar respuestas similares a las de los humanos, incluso en tareas que requieren soluciones complejas y razonamiento avanzado.

La adopción viral y generalizada de ChatGPT ha moldeado en gran medida la forma en que la sociedad comprende este nuevo momento para la inteligencia artificial.

El siguiente avance que definirá la IA para las generaciones futuras es la robótica. Construir robots impulsados por IA que puedan aprender a interactuar con el mundo físico mejorará todas las formas de trabajo repetitivo en sectores que van desde la logística, el transporte y la manufactura hasta el comercio minorista, la agricultura e incluso la atención médica. También desbloqueará eficiencias en el mundo físico del mismo modo en que hemos visto en el mundo digital en las últimas décadas.

Si bien existen problemas únicos que resolver en la robótica en comparación con el lenguaje, hay similitudes en los conceptos fundamentales. Y algunas de las mentes más brillantes en IA han logrado avances significativos en la construcción del "GPT para la robótica".

¿Qué permite el éxito del GPT?

Para entender cómo construir el "GPT para la robótica", primero observa los pilares fundamentales que han permitido el éxito de los LLM como GPT.

Enfoque del modelo de base

GPT es un modelo de IA entrenado con un conjunto de datos vasto y diverso. Anteriormente, los ingenieros recopilaban datos y entrenaban IA específicas para un problema específico. Luego necesitaban recopilar nuevos datos para resolver otro problema. ¿Otro problema? Nuevos datos una vez más. Ahora, con el enfoque del modelo de base, está sucediendo lo contrario.

En lugar de construir IA especializadas para cada caso de uso, se puede utilizar una única IA de manera universal. Y ese modelo general es más exitoso que todos los modelos especializados. La IA en un modelo de base tiene un mejor rendimiento en una tarea específica. Puede aprovechar los conocimientos adquiridos en otras tareas y generalizar hacia nuevas tareas porque ha aprendido habilidades adicionales al tener que desempeñarse bien en un conjunto diverso de tareas.

Entrenamiento con un conjunto de datos amplio, propio y de alta calidad

Para tener una IA generalizada, primero se necesita acceder a una gran cantidad de datos diversos. OpenAI obtuvo los datos del mundo real necesarios para entrenar los modelos GPT de manera bastante eficiente. GPT se ha entrenado con datos recopilados de todo internet utilizando un conjunto de datos grande y diverso, que incluye libros, artículos de noticias, publicaciones en redes sociales, código y más.

Construir robots impulsados por IA que puedan aprender a interactuar con el mundo físico mejorará todas las formas de trabajo repetitivo.

No solo es importante el tamaño del conjunto de datos; la curación de datos de alta calidad y alto valor también desempeña un papel fundamental. Los modelos GPT han logrado un rendimiento sin precedentes porque sus conjuntos de datos de alta calidad están principalmente informados por las tareas que a los usuarios les importan y las respuestas más útiles.

Papel del aprendizaje por refuerzo (RL)

OpenAI utiliza el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) para alinear la respuesta del modelo con las preferencias humanas (por ejemplo, lo que se considera beneficioso para un usuario). Es necesario ir más allá del aprendizaje supervisado puro (SL) porque SL solo puede abordar un problema con un patrón claro o un conjunto de ejemplos. Los LLM requieren que la IA logre un objetivo sin una respuesta única y correcta. Aquí es donde entra en juego RLHF.

RLHF permite que el algoritmo se acerque a un objetivo a través de prueba y error mientras un ser humano reconoce respuestas correctas (alto premio) o rechaza las incorrectas (bajo premio). La IA encuentra la función de recompensa que mejor explica las preferencias humanas y luego utiliza RL para aprender cómo llegar a ella

ChatGPT puede ofrecer respuestas que reflejen o superen las capacidades humanas al aprender a partir de la retroalimentación humana.

La próxima frontera de los modelos de base está en la robótica

La misma tecnología principal que permite a GPT ver, pensar e incluso hablar también permite a las máquinas ver, pensar y actuar. Los robots impulsados por un modelo de base pueden comprender su entorno físico, tomar decisiones informadas y adaptar sus acciones a las circunstancias cambiantes.

El "GPT para la robótica" se está construyendo de la misma manera que se construyó GPT, sentando las bases para una revolución que, una vez más, redefinirá la IA tal como la conocemos.

Enfoque del modelo de base

Al adoptar un enfoque del modelo de base, también se puede construir una IA que funcione en múltiples tareas en el mundo físico. Hace algunos años, los expertos recomendaban crear una IA especializada para robots que seleccionan y empacan productos de abarrotes. Y eso es diferente de un modelo que puede clasificar diferentes piezas eléctricas, que es diferente del modelo que descarga paletas de un camión.

Este cambio de paradigma hacia un modelo de base permite que la IA responda mejor a escenarios especiales que suelen existir en entornos del mundo real no estructurados y que de otro modo podrían confundir a modelos con un entrenamiento más limitado. Construir una IA generalizada que abarque todos estos escenarios es más exitoso. Es al entrenar con todo que se obtiene la autonomía a nivel humano que hemos estado perdiendo en las generaciones anteriores de robots.

Entrenamiento en un conjunto de datos grande, propietario y de alta calidad

Enseñar a un robot a aprender qué acciones conducen al éxito y cuáles conducen al fracaso es extremadamente difícil. Requiere un amplio conjunto de datos de alta calidad basados en interacciones físicas del mundo real. Los entornos de un solo laboratorio o ejemplos en video no son fuentes confiables o lo suficientemente sólidas (por ejemplo, los videos de YouTube no transmiten los detalles de la interacción física y los conjuntos de datos académicos suelen ser limitados en alcance).

A diferencia de la IA para el procesamiento de lenguaje o imágenes, no existe un conjunto de datos preexistente que represente cómo se deben interactuar los robots con el mundo físico. Por lo tanto, el conjunto de datos grande y de alta calidad se convierte en un desafío más complejo de resolver en robótica, y desplegar una flota de robots en producción es la única forma de construir un conjunto de datos diverso.

Papel del aprendizaje por refuerzo

Al igual que responder preguntas de texto con capacidad a nivel humano, el control y manipulación robóticos requieren que un agente busque progresar hacia un objetivo que no tiene una única respuesta correcta y única (por ejemplo, "¿Cuál es una forma exitosa de levantar esta cebolla roja?"). Una vez más, se requiere más que un simple aprendizaje supervisado.

Se necesita un robot que ejecute el aprendizaje por refuerzo profundo (deep RL) para tener éxito en la robótica. Este enfoque autónomo y de autoaprendizaje combina RL con redes neuronales profundas para desbloquear niveles más altos de rendimiento: la IA se adaptará automáticamente a sus estrategias de aprendizaje y continuará ajustando sus habilidades a medida que experimente nuevos escenarios.

Se avecina un crecimiento desafiante y explosivo

En los últimos años, algunos de los expertos en IA y robótica más brillantes del mundo sentaron las bases técnicas y comerciales para una revolución de modelos de base robóticos que redefinirán el futuro de la inteligencia artificial.

Si bien estos modelos de IA se han construido de manera similar a GPT, alcanzar la autonomía a nivel humano en el mundo físico es un desafío científico diferente por dos razones:

  1. Construir un producto basado en IA que pueda funcionar en una variedad de entornos del mundo real tiene un conjunto notable de requerimientos físicos complejos. La IA debe adaptarse a diferentes aplicaciones de hardware, ya que es dudoso que un hardware funcione en diversas industrias (logística, transporte, manufactura, venta al por menor, agricultura, atención médica, etc.) y actividades dentro de cada sector.
  2. Los almacenes y centros de distribución son un entorno de aprendizaje ideal para los modelos de IA en el mundo físico. Es común que cientos de miles o incluso millones de unidades de almacén (SKUs) fluyan a través de cualquier instalación en un momento dado, lo que proporciona el conjunto de datos grande, propietario y de alta calidad necesario para entrenar el 'GPT para la robótica'.

El momento "GPT" de la IA robótica está cerca

La trayectoria de crecimiento de los modelos de base robóticos se está acelerando a un ritmo muy rápido

Las aplicaciones robóticas, especialmente en tareas que requieren una manipulación precisa de objetos, ya se están aplicando en entornos de producción en el mundo real, y veremos un número exponencial de aplicaciones robóticas comercialmente viables implementadas a gran escala en 2024.

Chen ha publicado más de 30 artículos académicos que han aparecido en las principales revistas globales de IA y aprendizaje automático.