El transformador, la arquitectura de AI dominante en la actualidad, presenta interesantes similitudes con el lenguaje alienígena ... [ ] en la película de ciencia ficción de 2016 "Arrival".

Paramount PicturesSi la inteligencia artificial moderna tuviera un documento fundacional, un texto sagrado, sería el artículo de investigación de Google de 2017 "Attention Is All You Need".

Dicho artículo presentó una nueva arquitectura de aprendizaje profundo conocida como el transformador, que ha revolucionado el campo de la inteligencia artificial en la última década.

La locura actual por la inteligencia artificial generativa que está arrasando en el mundo se puede rastrear directamente hasta la invención del transformador. Todos los modelos y productos de IA más importantes que hoy ocupan los titulares, como ChatGPT, GPT-4, Midjourney, Stable Diffusion, GitHub Copilot, entre otros, están construidos utilizando transformadores.

Los transformadores son notablemente versátiles: aunque inicialmente fueron desarrollados específicamente para la traducción de lenguaje, ahora están avanzando en el estado del arte en dominios que van desde la visión por computadora hasta la robótica y la biología computacional.

En resumen, los transformadores representan el estándar indiscutible de la tecnología de IA en la actualidad.

Pero ninguna tecnología se mantiene dominante para siempre.

Puede parecer sorprendente o extraño, estando los transformadores en la cúspide de su influencia, contemplar qué vendrá después. Pero en el mundo acelerado de la IA, es tanto fascinante como ventajoso tratar de "ver más allá" y vislumbrar lo que depara el futuro antes de que sea obvio.

En ese espíritu, hagámonos la siguiente pregunta:

¿Qué podría reemplazar a los transformadores?

Transformadores 101

Para explorar esta pregunta, primero debemos comprender más profundamente los transformadores.

El ahora icónico artículo sobre los transformadores fue coescrito por ocho investigadores que trabajaron juntos en Google durante el transcurso de 2017: Aidan Gomez, Llion Jones, Lukasz Kaiser, Niki Parmar, Illia Polosukhin, Noam Shazeer, Jakob Uszkoreit y Ashish Vaswani.

Un hecho frecuentemente pasado por alto sobre el artículo es que los ocho autores aparecen listados como contribuyentes iguales; el orden en que aparecen los nombres de los autores en el artículo fue determinado al azar y no tiene ningún significado. Dicho esto, generalmente se reconoce que Uszkoreit proporcionó el impulso intelectual inicial para el concepto del transformador, mientras que Vaswani y Shazeer fueron los dos autores más implicados en todos los aspectos del trabajo desde el principio hasta el final.

Los ocho autores se han convertido en figuras prominentes en el mundo de la IA gracias a su trabajo en el artículo. Ninguno de ellos todavía trabaja en Google. Colectivamente, el grupo ha fundado muchas de las startups de IA más importantes de hoy en día, como Cohere, Character.ai, Adept, Inceptive, Essential AI y Sakana AI.

¿Por qué, exactamente, fue el transformador un avance tan importante?

Antes de que se publicara el artículo "Attention Is All You Need", el estado del arte en la IA del lenguaje era una arquitectura de aprendizaje profundo conocida como redes neuronales recurrentes (RNN, por sus siglas en inglés).

Por definición, las RNN procesan los datos de manera secuencial, es decir, una palabra a la vez, en el orden en que aparecen las palabras.

Pero a menudo existen relaciones importantes entre las palabras incluso si no aparecen juntas en una secuencia. Con el fin de permitir que las RNN tengan en cuenta estas dependencias a larga distancia entre palabras, un mecanismo conocido como atención se había vuelto popular recientemente. (La invención del mecanismo de atención se atribuye en general a un artículo de 2014 del pionero del aprendizaje profundo Yoshua Bengio).

La atención permite que un modelo considere las relaciones entre las palabras sin importar qué tan separadas estén y determine qué palabras y frases en un pasaje son las más importantes en las que "poner atención".

Antes del artículo sobre el transformador, los investigadores solo habían utilizado la atención como un complemento a la arquitectura de las RNN. El gran salto del equipo de Google fue deshacerse completamente de las RNN y depender por completo de la atención para el modelado del lenguaje. De ahí el título del artículo: "Attention Is All You Need".

(Un dato encantador y poco conocido sobre el artículo: según el coautor Llion Jones, su título es un guiño a la canción de los Beatles "All You Need Is Love").

Los ocho científicos investigadores que crearon el transformador.

Crédito de la imagen: Financial Times

La innovación fundamental de los Transformers, posible gracias al mecanismo de atención, es realizar un procesamiento paralelo del lenguaje, lo que significa que todas las palabras en un cuerpo de texto determinado se analizan al mismo tiempo en lugar de hacerlo en secuencia.

Como una analogía interesante, Illia Polosukhin, coautor, ha comparado la arquitectura del transformador con el idioma alienígena ficticio de la película de ciencia ficción "Arrival" de 2016. En lugar de generar secuencialmente cadenas de caracteres para formar palabras y frases (como lo hacen los humanos), los alienígenas en la película producen un símbolo complejo a la vez, todo de una vez, lo cual transmite un significado detallado que los humanos deben interpretar como un todo.

La paralelización de los Transformers les brinda una comprensión más global y, por lo tanto, más precisa de los textos que leen y escriben. También los hace más eficientes en términos computacionales y más escalables que las RNN. Los Transformers se pueden entrenar con conjuntos de datos mucho más grandes y construir con muchos más parámetros que las arquitecturas anteriores, lo que los hace más poderosos y generalizables. De hecho, una característica distintiva de los modelos basados en transformadores líderes en la actualidad es su escala.

En una de esas coocurrencias históricas mutuamente beneficiosas y mutuamente reforzantes, la arquitectura paralela del transformador se enlazó con el surgimiento del hardware de GPU. Las GPU son un tipo de chip informático que a su vez está paralelizado en gran medida y, por lo tanto, son ideales para admitir cargas de trabajo informáticas basadas en transformadores. (Nvidia, el principal fabricante mundial de GPU, ha sido quizás el mayor beneficiario del auge actual de la IA, recientemente superando una capitalización de mercado de $1 billón debido a una demanda increíble de sus chips).

El resto, como dicen, es historia. Gracias a estas tremendas ventajas, los transformadores han conquistado el mundo desde su invención hace seis años, marcando el inicio de la era de la IA generativa.

Todos los "chatbots" populares de hoy en día, como el ChatGPT de OpenAI, Bard de Google, Bing Chat de Microsoft, Claude de Anthropic y Pi de Inflection, están basados en transformadores. Lo mismo ocurre con todas las herramientas de IA que generan imágenes o videos, desde Midjourney hasta Stable Diffusion y Runway. (La tecnología de texto a imagen y texto a video está impulsada por modelos de difusión; los modelos de difusión utilizan transformadores.)

La influencia de los transformadores va mucho más allá del texto y las imágenes. La investigación en robótica más avanzada de hoy en día se basa en transformadores. De hecho, el trabajo más reciente en robótica de Google se llama RT-2, donde la T significa "transformer". Del mismo modo, una de las vías de investigación más prometedoras en el campo de los vehículos autónomos es el uso de transformadores de visión. Los modelos basados en transformadores han abierto posibilidades nuevas y sorprendentes en biología, incluyendo la capacidad de diseñar proteínas y ácidos nucleicos personalizados que nunca antes habían existido en la naturaleza.

Ashish Vaswani, uno de los co-inventores de los transformadores, lo resumió bien: "El transformador es una forma de capturar interacciones muy rápidamente y de una vez entre diferentes partes de cualquier entrada. Es un método general que captura interacciones entre partes en una oración, o las notas de la música, o los píxeles en una imagen, o partes de una proteína. Puede ser utilizado para cualquier tarea".

¿Todas las cosas buenas deben terminar?

Sin embargo, a pesar de sus increíbles fortalezas, el transformador no está exento de limitaciones. Estas limitaciones abren la puerta a la posible aparición de nuevas y mejores arquitecturas.

Una de las principales limitaciones del transformador es su asombroso coste computacional.

Como cualquier persona familiarizada con el mundo de la IA sabe, una de las características definitorias de los modelos de IA actuales es su insaciable necesidad de computación. Entrenar un modelo de lenguaje grande de vanguardia hoy en día implica ejecutar miles de unidades de procesamiento gráfico (GPU) las veinticuatro horas del día durante meses. Por ejemplo, la razón por la que OpenAI recaudó impresionantes 10 mil millones de dólares a principios de este año fue para pagar los enormes recursos informáticos necesarios para construir modelos de IA avanzados. Como otro ejemplo, la startup Inflection, con dieciocho meses de antigüedad, recientemente recaudó más de 1 mil millones de dólares en financiamiento de riesgo para construir un gran clúster de GPU para entrenar sus modelos de lenguaje.

Los modelos basados en transformadores son tan exigentes en cálculos, de hecho, que el actual auge de la IA ha provocado una escasez global de suministro, ya que los fabricantes de hardware no pueden producir suficientes chips de IA para satisfacer la demanda.

¿Por qué los transformadores requieren tanta capacidad computacional?

Una respuesta básica es que la gran fortaleza de los transformadores también se convierte en una debilidad: debido a que escalan de manera mucho más efectiva que las arquitecturas anteriores, los transformadores permiten construir modelos que son magnitudes mayores a los que existían anteriormente. Estos modelos masivos requieren una potencia de cálculo igualmente masiva.

Pero hay una razón más específica para el costo computacional de los transformadores: la arquitectura de los transformadores escala de manera cuadrática con la longitud de la secuencia. En pocas palabras, esto significa que a medida que aumenta la longitud de una secuencia procesada por un transformador (por ejemplo, el número de palabras en un pasaje o el tamaño de una imagen) en una cantidad determinada, el cálculo requerido aumenta cuadráticamente, llegando rápidamente a ser enorme.

Hay una razón intuitiva para esta escala cuadrática y es inherente al diseño del transformador.

Recordemos que la atención hace posible comprender las relaciones entre las palabras sin importar la distancia que las separa en una secuencia. ¿Cómo lo hace? Comparando cada palabra en una secuencia con cada otra palabra en esa secuencia. La consecuencia de esta comparación par a par es que, a medida que aumenta la longitud de la secuencia, el número de pasos computacionales requeridos crece de manera cuadrática en lugar de lineal. Para poner un ejemplo concreto, duplicar la longitud de la secuencia de 32 tokens a 64 tokens no duplica simplemente el costo computacional para un transformador, sino que lo cuadriplica.

Esta escala cuadrática conlleva una desventaja relacionada: los transformadores tienen dificultades para manejar secuencias muy largas.

A medida que las secuencias se alargan, llega un punto en el que resulta inmanejable alimentarlas a los transformadores debido a que las necesidades de memoria y cálculo explotan de manera cuadrática. Consideremos, por ejemplo, procesar libros enteros (con millones de tokens) o genomas completos (con miles de millones de tokens).

Aumentar la longitud máxima de la secuencia que se puede alimentar a un modelo, conocido como "ventana de contexto" del modelo, es un área de investigación activa para los modelos de lenguaje grandes en la actualidad. La ventana de contexto para el modelo GPT-4 base es de 8,000 tokens. Hace unos meses, OpenAI lanzó una versión mejorada de GPT-4 con una ventana de contexto de 32,000 tokens. Luego, Anthropic, competidor de OpenAI, subió la apuesta anunciando recientemente un nuevo modelo con una ventana de contexto de 100,000 tokens.

Esta carrera armamentista seguramente continuará. Sin embargo, existen límites en cuanto a qué tan grandes pueden ser las ventanas de contexto de los modelos de OpenAI, Anthropic o cualquier otra empresa si se mantienen con la arquitectura de transformadores.

Se han realizado varios intentos para construir versiones modificadas de los transformadores que aún utilizan atención pero están mejor equipados para manejar secuencias largas. Sin embargo, estas arquitecturas de transformadores modificados, con nombres como "Longformer", "Reformer", "Performer", "Linformer" y "Big Bird", generalmente sacrifican el rendimiento y no logran ser adoptadas.

Rivales del Trono

Esto nos lleva quizás al área más fértil de investigación en el esfuerzo por crear un reemplazo para los transformadores. El principio rector de esta escuela de investigación consiste en reemplazar la atención con una nueva función que escala de manera subcuadrática. La escala subcuadrática desbloquearía modelos de IA que son (1) menos intensivos en cálculos y (2) capaces de procesar mejor secuencias largas en comparación con los transformadores. El desafío, por supuesto, es lograr esto sin comprometer las capacidades generales de los transformadores.

Un esfuerzo de investigación en 2021 llamado S4 proveniente del laboratorio de Chris Ré en Stanford sentó las bases para esta área de investigación. Han surgido varias prometedoras arquitecturas subcuadráticas basadas en S4.

Una de las arquitecturas más intrigantes en la familia S4 es Hyena, publicada hace unos meses por un equipo de destacados expertos que incluye a Ré y Yoshua Bengio.

En lugar de la atención, Hyena utiliza otras dos operaciones: convoluciones largas y multiplicación elemento a elemento.

Las convoluciones son uno de los métodos más antiguos en el aprendizaje automático, concebidas por primera vez por Yann LeCun a principios de los años 80. La nueva propuesta de Hyena para esta arquitectura venerable es estirar y variar el tamaño del filtro de convolución según la longitud de la secuencia para aumentar la eficiencia computacional.

Los resultados iniciales de Hyena son prometedores. El modelo logra un rendimiento de vanguardia para un modelo de lenguaje que no utiliza atención. Iguala el rendimiento de los transformadores en ciertos escenarios mientras utiliza significativamente menos capacidad de cálculo. Es importante destacar que las ventajas de eficiencia de Hyena en comparación con los transformadores se vuelven más notables a medida que aumenta la longitud de la secuencia, lo que subraya su ventaja para entradas muy largas: con una longitud de secuencia de 8.000 tokens, los operadores de Hyena son dos veces más rápidos que la atención, mientras que con una longitud de secuencia de 64.000 tokens son cien veces más rápidos.

Como lo expresan los autores de Hyena: "Romper la barrera cuadrática es un paso clave hacia nuevas posibilidades para el aprendizaje profundo, como utilizar libros completos como contexto, generar música de formato largo o procesar imágenes a escala gigapíxel".

Con un toque mínimo de sarcasmo, los autores agregan: "Nuestros prometedores resultados a escala de menos de mil millones de parámetros sugieren que tal vez la atención no sea todo lo que necesitamos".

Una aplicación inicialmente convincente de la arquitectura Hyena es HyenaDNA, un nuevo modelo fundamental para genómica desarrollado en Stanford. Aprovechando la capacidad superior de Hyena para manejar secuencias largas, HyenaDNA presenta una impresionante ventana de contexto de 1 millón de tokens. El genoma humano es uno de los conjuntos de datos más largos (sin mencionar uno de los más importantes) que existen: el ADN de cada ser humano contiene 3,2 mil millones de nucleótidos. Por lo tanto, es un caso ideal para una arquitectura de modelo como Hyena, que sobresale en la captura de dependencias a largo plazo.

Los autores de HyenaDNA ofrecen una sugerente pista de lo que esta tecnología podría desbloquear en el futuro: "Imagina poder interactuar con ChatGPT con un genoma humano completo. ¿No sería fantástico hacer preguntas sobre posibles enfermedades, predecir reacciones a medicamentos o guiar opciones de tratamiento según tu código genético específico?".

Aquí cabe destacar un punto importante: el trabajo inicial de Hyena se llevó a cabo en escalas relativamente pequeñas. El modelo más grande de Hyena tiene 1,3 mil millones de parámetros, en comparación con los 175 mil millones de parámetros de GPT-3 y los (rumoreados) 1,8 billones de parámetros de GPT-4. Una prueba clave para la arquitectura de Hyena será si continúa demostrando un rendimiento sólido y ganancias de eficiencia a medida que se escala al tamaño de los modelos transformadores actuales.

Otras arquitecturas novedosas de aprendizaje profundo en esta familia incluyen Monarch Mixer (también del laboratorio de Chris Ré en Stanford), BiGS (de Cornell y DeepMind) y MEGA (de Meta).

Al igual que Hyena, todos estos modelos presentan una escala subcuadrática, lo que significa que son más eficientes computacionalmente y están mejor equipados para manejar secuencias largas que los transformadores. Y al igual que Hyena, todos son prometedores pero no probados: aún queda por ver si alguno de ellos puede mantener un rendimiento sólido en las escalas en las que operan los modelos transformadores actuales.

Volviendo atrás, la eficiencia computacional y las dependencias a largo plazo no son las únicas dos debilidades de los transformadores en las que las nuevas arquitecturas buscan mejorar.

Una limitación adicional de los modelos transformadores es su incapacidad para aprender de manera continua. Los modelos transformadores actuales tienen parámetros estáticos. Cuando se entrena un modelo, se establecen sus pesos (la fuerza de las conexiones entre sus neuronas); estos pesos no se actualizan en función de la nueva información que el modelo encuentra a medida que se despliega en el mundo.

Otra limitación comúnmente citada es la falta de explicabilidad de los transformadores. Los modelos basados en transformadores son "cajas negras": su funcionamiento interno es demasiado complejo y opaco para que los humanos entiendan exactamente por qué se comportan de la manera en que lo hacen. Esto puede ser un problema real en aplicaciones críticas para la seguridad o altamente reguladas, como en el campo de la salud.

Las redes neuronales líquidas, otra nueva arquitectura de IA muy comentada que busca desafiar al transformador, afirman abordar ambas limitaciones.

Creadas en el MIT por un equipo de investigación liderado por Ramin Hasani y Daniela Rus, las redes neuronales líquidas se inspiran en la biología, en particular en cómo funciona el cerebro del gusano C. elegans. El "líquido" en el nombre se refiere al hecho de que los pesos del modelo son probabilísticos en lugar de constantes, lo que les permite variar fluidamente según las entradas a las que se expone el modelo.

Las redes neuronales líquidas también son mucho más pequeñas que los modelos transformadores actuales. En una reciente prueba de concepto, el equipo del MIT construyó un sistema de vehículo autónomo que logró conducir con éxito en carreteras públicas con tan solo 19 neuronas y 253 parámetros.

Todo el mundo habla de ampliar su red", dijo Hasani. "Nosotros queremos reducir, tener menos pero nodos más ricos".

Además de la eficiencia computacional, esta arquitectura más pequeña hace que las redes neuronales líquidas sean más transparentes y legibles para los seres humanos que los transformadores. Después de todo, es más factible para un observador humano interpretar lo que está sucediendo en una red con 253 conexiones que en una con 175 mil millones de conexiones.

Rus es uno de los principales expertos en robótica del mundo, y las redes neuronales líquidas parecen ser especialmente adecuadas para aplicaciones robóticas, incluyendo vehículos autónomos y drones. Solo funcionan con datos de series de tiempo (es decir, datos con una dimensión de tiempo), lo que significa que no se pueden aplicar a imágenes u otras modalidades de datos estáticos.

Vale la pena mencionar un último esfuerzo por construir "lo que viene después del transformador". Llion Jones, uno de los ocho coautores de "Attention Is All You Need", recientemente dejó Google para lanzar una nueva startup llamada Sakana AI junto con David Ha, ex jefe de investigación de Stability AI.

La misión de Sakana es mejorar los transformadores con un enfoque inspirado en la naturaleza y en principios evolutivos. La idea clave de la visión del equipo es la noción de inteligencia colectiva o de enjambre, con un sistema de muchos modelos pequeños que actúan de manera colaborativa en lugar de uno monolítico.

"Siempre gana el aprendizaje", dijo Jones. "La historia de la IA refleja la realidad de que siempre es mejor que un modelo aprenda algo por sí mismo en lugar de que un humano lo ingenie manualmente. La revolución del aprendizaje profundo fue un ejemplo de esto, ya que pasamos de construir detectores de características a mano a permitir que las redes neuronales aprendan sus propias características. Esta será una filosofía fundamental para nosotros en Sakana AI, y recurriremos a ideas de la naturaleza, incluida la evolución, para explorar este espacio".

Distant Horizons

El transformador es una arquitectura de IA excepcionalmente potente.

Los transformadores se han convertido en el fundamento de la inteligencia artificial moderna. Prácticamente todos los sistemas de IA avanzados se basan en transformadores; todos los investigadores de IA están acostumbrados a trabajar con ellos. Los transformadores han sido optimizados por miles de investigadores que se basan en el trabajo de los demás en los últimos años.

Esto les brinda una poderosa ventaja que los hace difíciles de desplazar.

Sin embargo, fuera del foco de atención, lejos de las cámaras de eco de la exageración de la IA, se está llevando a cabo un trabajo prometedor para desarrollar arquitecturas de IA de próxima generación que son superiores a los transformadores de diferentes maneras.

Este trabajo aún está en sus primeras etapas y no está probado. Aún no está claro si estas nuevas arquitecturas tendrán éxito en reemplazar al transformador. Pero si lo hacen, las implicaciones para el mundo de la IA serán enormes.

Antes de la era de los transformadores, diferentes arquitecturas de IA eran predominantes en diferentes casos de uso: las redes neuronales recurrentes se usaban para el lenguaje, las redes neuronales convolucionales se usaban para la visión por computadora, el aprendizaje por refuerzo se usaba para los juegos, y así sucesivamente.

Ha sido notable presenciar la progresiva unificación de la metodología de la IA en los últimos años, ya que los transformadores se han demostrado ser el estado del arte en un dominio tras otro, desde el lenguaje hasta la visión, pasando por la robótica y la biología.

Sin embargo, no está predestinado que esta tendencia hacia la unificación, hacia "una arquitectura de IA para gobernarlos a todos", continúe indefinidamente.

Es concebible que se desarrolle una versión diferente del futuro: que a medida que los límites de la investigación en IA avancen en los próximos años, se desarrollen nuevas arquitecturas que demuestren ser más adecuadas para dominios particulares. Tal vez, por ejemplo, los transformadores sigan dominando el campo del procesamiento del lenguaje durante muchos años, mientras que una nueva arquitectura desplace rápidamente a los transformadores como estado del arte en robótica.

O tal vez se desarrolle un enfoque de IA nuevo que supere y reemplaza rápidamente a los transformadores en general.

Una cosa es cierta: el campo de la inteligencia artificial es hoy en día tan rápido y dinámico que debemos esperar que los cambios lleguen incómodamente rápido, no debemos dar nada por sentado y debemos prepararnos para sorprendernos con lo que depara el futuro.

Nota: El autor es socio de Radical Ventures, el inversor fundador de Cohere.