La semana pasada, en la conferencia anual de Google dedicada a nuevos productos y tecnologías, la compañía anunció un cambio en su principal producto de IA: El chatbot Bard, como el GPT-4 de OpenAI, pronto podrá describir imágenes. Aunque pueda parecer una actualización menor, la mejora es parte de una revolución silenciosa en cómo las empresas, los investigadores y los consumidores desarrollan y utilizan la IA, llevando la tecnología no solo más allá de la reorganización del lenguaje escrito y hacia diferentes medios, sino hacia el más noble objetivo de una comprensión rica y detallada del mundo. ChatGPT tiene seis meses de antigüedad y ya comienza a parecer obsoleto.

Ese programa y sus similares, conocidos como modelos de lenguaje grandes, imitan la inteligencia prediciendo qué palabras es estadísticamente probable que sigan a otras en una oración. Los investigadores han entrenado estos modelos con cada vez más texto, en este punto, cada libro y algo más, con la premisa de que alimentar a las máquinas con más palabras en diferentes configuraciones dará como resultado mejores predicciones y programas más inteligentes. Este enfoque maximalista del texto para el desarrollo de la IA ha sido dominante, especialmente entre los productos corporativos más expuestos al público, durante años.

Pero los modelos solo de lenguaje como el ChatGPT original están cediendo su lugar a máquinas que también pueden procesar imágenes, audio e incluso datos sensoriales de robots. El nuevo enfoque podría reflejar una comprensión más humana de la inteligencia, un intento temprano de aproximar cómo un niño aprende existiendo y observando el mundo. También podría ayudar a las empresas a construir IA que pueda hacer más cosas y, por lo tanto, ser empaquetada en más productos.

GPT-4 y Bard no son los únicos programas con estas capacidades expandidas. También la semana pasada, Meta lanzó un programa llamado ImageBind que procesa texto, imágenes, audio, información sobre profundidad, radiación infrarroja e información sobre movimiento y posición. El reciente PaLM-E de Google fue entrenado tanto en el lenguaje como en los datos sensoriales de robots, y la compañía ha insinuado un modelo nuevo y más poderoso que va más allá del texto. Microsoft tiene su propio modelo, que fue entrenado en palabras e imágenes. Los generadores de texto a imagen como DALL-E 2, que cautivaron a internet el verano pasado, se entrenan con fotos tituladas.

Estos se conocen como modelos multimodales, el texto es una modalidad, las imágenes otra, y muchos investigadores esperan que esto lleve a la IA a nuevas alturas. El futuro más grande es aquel en el que la IA no está limitada a escribir ensayos formulados y ayudar a las personas en Slack, sería capaz de buscar en Internet sin inventar cosas, animar un video, guiar un robot o crear un sitio web por sí sola (como hizo GPT-4 en una demostración basada en un concepto vago esbozado por un humano).

Lee: La chatbot GPT cambió todo. Ahora llega su continuación.

Un enfoque multimodal podría solucionar teóricamente un problema central de los modelos de lenguaje: aunque puedan unir fluídamente palabras, tienen dificultades para conectar esas palabras con conceptos, ideas, objetos o eventos. "Cuando hablan de un atasco de tráfico, no tienen experiencia en atascos de tráfico más allá de lo que han asociado con otras piezas de lenguaje", me dijo Melanie Mitchell, investigadora en IA y científica cognitiva en el Instituto Santa Fe. Pero si los datos de entrenamiento de una IA pueden incluir videos de atascos de tráfico, "pueden obtener mucha más información". Aprender de más tipos de datos podría ayudar a los modelos de IA a concebir e interactuar con entornos físicos, desarrollar algo que se parezca al sentido común, y hasta abordar problemas de fabricación. Si un modelo comprende el mundo, es menos probable que invente cosas sobre él.

El impulso por los modelos multimodales no es completamente nuevo; Google, Facebook y otros presentaron sistemas automatizados de leyendas de imágenes hace casi una década. Pero algunos cambios clave en la investigación de IA han hecho que los enfoques multidominio sean más posibles y prometedores en los últimos años, según Jing Yu Koh, quien estudia IA multimodal en Carnegie Mellon. Mientras que durante décadas, campos de la informática como el procesamiento del lenguaje natural, la visión por computadora y la robótica usaban métodos extremadamente diferentes, ahora todos usan un método de programación llamado "aprendizaje profundo". Como resultado, su código y enfoques se han vuelto más similares y sus modelos son más fáciles de integrar entre sí. Y los gigantes de internet como Google y Facebook han generado conjuntos de datos de imágenes y videos cada vez más grandes, y las computadoras son cada vez más potentes para manejarlos.

También hay una razón práctica para el cambio. Aunque el internet, por grande que parezca, contiene una cantidad finita de texto para que la IA se entrene. Y hay un límite realista de lo grande e inmanejables que pueden volverse estos programas, así como de cuánta potencia de cómputo pueden utilizar, me dijo Daniel Fried, científico informático en Carnegie Mellon. Los investigadores "están empezando a moverse más allá del texto para hacer que los modelos sean más capaces con los datos que pueden recopilar". De hecho, Sam Altman, CEO de OpenAI y, en parte gracias al testimonio en el Senado de esta semana, una especie de chico de la industria, ha dicho que la era del escalado de modelos basados en texto probablemente ha terminado, solo meses después de que ChatGPT se convirtiera en la aplicación de consumo de más rápido crecimiento de la historia.

Cuánto mejor entenderá el mundo la inteligencia artificial multimodal en comparación con ChatGPT y cuán fluido será su lenguaje, si es que lo es, aún es motivo de debate. Aunque muchos programas tienen un mejor rendimiento que los puramente lingüísticos, especialmente en tareas relacionadas con imágenes y escenarios 3D, como la descripción de fotos e imaginación de las consecuencias de una oración, en otras áreas su desempeño no ha sido tan excepcional. En el informe técnico que acompaña a GPT-4, los investigadores de OpenAI informaron que prácticamente no se encontró mejora alguna en el rendimiento de las pruebas estandarizadas cuando se agregó visión. Además, el modelo sigue produciendo falsas declaraciones confiadas que son absurdas, sutilmente incorrectas o simplemente despreciables, como informa The Atlantic. PaLM-E de Google en realidad tuvo un peor rendimiento en tareas lingüísticas que el modelo solo de lenguaje PaLM, quizás porque la adición de información sensorial del robot significó que se sacrificó una parte del lenguaje de su conjunto de datos y habilidades de entrenamiento. Sin embargo, dicha investigación aún se encuentra en sus primeras fases y puede mejorar en los próximos años, según Fried.

Aún estamos muy lejos de todo lo que verdaderamente pueda emular cómo piensa la gente. "Creo que no es probable que estos modelos alcancen la inteligencia humana, dado el tipo de arquitecturas que utilizan actualmente", me dijo Mitchell. Incluso si un programa como ImageBind de Meta puede procesar imágenes y sonido, los humanos también aprenden interactuando con otras personas, tienen memoria a largo plazo, se desarrollan a partir de la experiencia y son el resultado de millones de años de evolución, entre otras formas en las que la inteligencia artificial y orgánica no se alinean.

The Atlantic informa que arrojar más datos textuales a los modelos de inteligencia artificial no resolvió problemas de larga data con el sesgo y la fabricación, y no necesariamente solucionará estos problemas al arrojar más tipos de datos a las máquinas. Un programa que ingiera no solo texto sesgado, sino también imágenes sesgadas, seguirá produciendo resultados dañinos, aunque en distintos medios. Se ha demostrado, por ejemplo, que los modelos de texto a imagen, como Stable Diffusion, perpetúan prejuicios racistas y sexistas, como asociar la palabra "matón" con rostros negros, informa TechPolicy. Las infraestructuras opacas y los conjuntos de datos de entrenamiento hacen que sea difícil regular y auditar el software, y la posibilidad de violaciones de derechos laborales y de autor de IA pueden aumentar aún más a medida que la IA tiene que absorber más tipos de datos.

Según Mitchell, la inteligencia artificial multimodal podría ser aún más susceptible a ciertos tipos de manipulaciones, como alterar píxeles clave en una imagen, que los modelos solo competentes en lenguaje. Algunas formas de fabricación probablemente continuarán y quizás sean aún más convincentes y peligrosas porque las alucinaciones serán de naturaleza visual, como imaginar que la IA genera un escándalo del tamaño de las imágenes falsas del arresto de Donald Trump. "No creo que la multimodalidad sea la solución para ninguno de estos problemas", dijo Koh.

Leer: la búsqueda de IA es un desastre.

Dejando de lado la inteligencia, la AI multimodal podría ser una mejor propuesta de negocios. Los modelos de lenguaje ya son una fiebre dorada en Silicon Valley: antes del auge corporativo en multimodalidad, se informó que OpenAI esperaba ganar $1 mil millones en ingresos para 2024; análisis recientes predijeron que ChatGPT añadirá decenas de miles de millones de dólares a los ingresos anuales de Microsoft en pocos años.

El ir por el camino multimodal podría ser como buscar El Dorado. Estos programas simplemente ofrecerán más a los clientes que el ChatGPT plano de solo texto, como describir imágenes y videos, interpretar o incluso producir diagramas, ser asistentes personales más útiles, y así sucesivamente. La AI multimodal podría ayudar a consultores y capitalistas de riesgo a hacer mejores presentaciones en diapositivas, mejorar el software existente que describe de manera incompleta imágenes y el entorno para personas con discapacidad visual, acelerar el procesamiento de tediosos registros electrónicos de salud, y guiarnos en las calles no como un mapa, sino observando los edificios a nuestro alrededor.

Es fácil imaginar aplicaciones para robótica, autos autónomos, medicina y más, incluso si nunca se materializan, como una ciudad dorada que, aunque resulte mítica, aún justifica la conquista. La multimodalidad no necesitará producir máquinas claramente más inteligentes para tener éxito. Solo necesita hacer más aparentemente rentables.