[Una versión de este artículo apareció por primera vez en el boletín de robótica de TechCrunch, Actuator. Suscríbete aquí.]
El tema de la inteligencia artificial generativa se menciona con frecuencia en mi boletín, Actuator. Admito que estaba un poco indeciso sobre dedicar más tiempo al tema hace unos meses. Cualquiera que haya estado reportando sobre tecnología tanto tiempo como yo ha vivido innumerables ciclos de hype y ha sido decepcionado antes. Reportar sobre tecnología requiere una buena dosis de escepticismo, esperando que se vea compensado por cierta emoción sobre lo que se puede lograr.
Esta vez, parecía que la inteligencia artificial generativa estaba esperando en el backstage, esperando el derrumbe inevitable de las criptomonedas. A medida que la sangre se desvanecía de esa categoría, proyectos como ChatGPT y DALL-E estaban preparados, listos para ser el foco de informes emocionados, esperanzados, críticas, pesimismo y todas las diferentes etapas de la burbuja del hype tecnológico al estilo Kübler-Rossian.
Quienes siguen mi trabajo saben que nunca fui especialmente optimista con las criptomonedas. Sin embargo, las cosas son diferentes con la inteligencia artificial generativa. En primer lugar, hay un acuerdo casi universal de que la inteligencia artificial/aprendizaje automático en general desempeñará roles más centralizados en nuestras vidas en el futuro.
Los teléfonos inteligentes ofrecen una gran perspectiva aquí. La fotografía computacional es algo de lo que escribo con cierta regularidad. Ha habido grandes avances en ese campo en los últimos años, y creo que muchos fabricantes finalmente han logrado un buen equilibrio entre hardware y software cuando se trata de mejorar el producto final y reducir la barrera de entrada. Google, por ejemplo, realiza algunos trucos realmente impresionantes con funciones de edición como Best Take y Magic Eraser.
Claro, son trucos ingeniosos, pero también son útiles, en lugar de ser características por tener características. Sin embargo, de cara al futuro, el verdadero truco será integrarlos sin problemas en la experiencia. Con flujos de trabajo futuros ideales, la mayoría de los usuarios tendrán poca o ninguna noción de lo que sucede detrás de escena. Solo estarán contentos de que funcione. Es la clásica estrategia de Apple.
La inteligencia artificial generativa ofrece un efecto "wow" similar desde el principio, lo cual es otra forma en que difiere de su predecesor en el ciclo de hype. Cuando incluso tu pariente menos entendido en tecnología puede sentarse frente a una computadora, escribir unas pocas palabras en un campo de diálogo y luego ver cómo la caja negra produce pinturas e historias cortas, no se requiere mucho esfuerzo conceptualizar. Esa es una gran razón por la que todo esto se popularizó tan rápido: la mayoría de las veces, cuando las personas comunes reciben tecnologías de vanguardia, se les pide que visualicen cómo podrían verse dentro de cinco o diez años.
Con ChatGPT, DALL-E, etc., puedes experimentarlo de primera mano en este momento. Por supuesto, el lado negativo de esto es lo difícil que se vuelve moderar las expectativas. Al igual que las personas tienden a atribuirles a los robots inteligencia humana o animal, sin una comprensión fundamental de la inteligencia artificial, es fácil proyectar intencionalidad aquí. Pero así es como funcionan las cosas ahora. Captamos la atención con titulares llamativos y esperamos que las personas se queden el tiempo suficiente para leer sobre las maquinaciones detrás de ellos.
Spoiler: En nueve de cada diez ocasiones, no lo harán, y de repente pasamos meses y años tratando de volver a la realidad.
Una de las bonitas ventajas de mi trabajo es la capacidad de desglosar estas cosas con personas mucho más inteligentes que yo. Se toman el tiempo de explicar las cosas y, con suerte, hago un buen trabajo al trasladarlo a los lectores (algunos intentos son más exitosos que otros).
Una vez que quedó claro que la inteligencia artificial generativa tiene un papel importante en el futuro de la robótica, he estado buscando formas de insertar preguntas en las conversaciones. Me parece que la mayoría de las personas en el campo están de acuerdo con la afirmación de la frase anterior, y es fascinante ver la amplitud de impacto que creen que tendrá.
Por ejemplo, en mi reciente conversación con Marc Raibert y Gill Pratt, este último explicó el papel que la inteligencia artificial generativa está desempeñando en su enfoque de aprendizaje de robots:
Hemos descubierto cómo hacer algo, que es utilizar técnicas modernas de inteligencia artificial generativa que permiten la demostración humana tanto de posición como de fuerza para enseñar a un robot a partir de solo un puñado de ejemplos. El código no cambia en absoluto. Lo que se basa en esto se llama política de difusión. Es un trabajo que hicimos en colaboración con Columbia y MIT. Hasta ahora hemos enseñado 60 habilidades diferentes.
La semana pasada, cuando le pregunté a Deepu Talla, vicepresidente y gerente general de Nvidia Embedded and Edge Computing, por qué la compañía cree que la inteligencia artificial generativa es más que una moda, él me dijo:
Creo que habla por sí misma en los resultados. Ya se puede ver la mejora en la productividad. Puede componer un correo electrónico para mí. No es exactamente perfecto, pero no tengo que empezar desde cero. Me da el 70%. Ya se pueden ver cosas obvias que son definitivamente un gran salto respecto a cómo eran antes las cosas. Resumir algo no es perfecto. No voy a dejar que lea y resuma para mí. Por lo tanto, ya se pueden ver señales de mejora en la productividad.
Mientras tanto, durante mi última conversación con Daniela Rus, directora de MIT CSAIL, explicó cómo los investigadores utilizan la inteligencia artificial generativa para diseñar realmente a los robots:
Resulta que la inteligencia artificial generativa puede ser bastante poderosa para resolver incluso problemas de planificación de movimiento. Se pueden obtener soluciones mucho más rápidas y soluciones más fluidas y parecidas a las humanas para el control que con soluciones predictivas de modelos. Creo que eso es muy poderoso, porque los robots del futuro serán mucho menos robotizados. Serán mucho más fluidos y parecidos a los humanos en sus movimientos.
También hemos utilizado la inteligencia artificial generativa para el diseño. Esto es muy poderoso. También es muy interesante, porque no se trata solo de generación de patrones para robots. Tienes que hacer algo más. No puede ser simplemente generar un patrón basado en datos. Las máquinas tienen que tener sentido en el contexto de la física y el mundo físico. Por esa razón, las conectamos a un motor de simulación basado en la física para asegurarnos de que los diseños cumplan con las limitaciones requeridas.
Esta semana, un equipo de la Universidad Northwestern presentó su propia investigación sobre diseño de robots generado por IA. Los investigadores demostraron cómo diseñaron un "robot que camina con éxito en apenas segundos". No es gran cosa, como estas cosas van, pero es lo suficientemente fácil de ver cómo, con más investigación, podríamos utilizar este enfoque para crear sistemas más complejos.
Descubrimos un algoritmo de diseño impulsado por una IA muy rápido que evita los atascos de la evolución, sin recurrir al sesgo de los diseñadores humanos", dijo el líder de la investigación, Sam Kriegman. "Le dijimos a la IA que queríamos un robot que pudiera caminar por la tierra. ¡Luego simplemente presionamos un botón y listo! Generó un plano para un robot en un abrir y cerrar de ojos que no se parece a ningún animal que haya caminado jamás en la Tierra. Llamo a este proceso 'evolución instantánea'".
Fue elección del programa de IA ponerle patas al pequeño y blando robot. "Es interesante porque no le dijimos a la IA que un robot debería tener patas", agregó Kriegman. "Redescubrió que las patas son una buena forma de moverse en tierra. De hecho, la locomoción con patas es la forma más eficiente de movimiento terrestre".
"Desde mi perspectiva, la IA generativa y la automatización física/robótica son lo que va a cambiar todo lo que sabemos sobre la vida en la Tierra", me dijo esta semana Jeff Linnell, fundador y CEO de Formant. "Creo que todos estamos al tanto de que la IA es una cosa y esperamos que todos nuestros trabajos, todas las empresas y los estudiantes se vean afectados. Creo que es simbiótico con la robótica. No tendrás que programar un robot. Le hablarás al robot en inglés, le pedirás una acción y luego se resolverá. Pasará un tiempo para eso".
Antes de Formant, Linnell fundó y fue CEO de Bot & Dolly. La empresa con sede en San Francisco, conocida principalmente por su trabajo en Gravity, fue adquirida por Google en 2013 cuando el gigante del software puso su mirada en acelerar la industria (los mejores planes, etc.). El ejecutivo me dice que su mayor aprendizaje de esa experiencia es que todo se trata del software (dado la llegada de Intrinsic y la absorción de Everyday Robots por parte de DeepMind, me inclino a decir que Google está de acuerdo).