Las redes neuronales artificiales, modelos omnipresentes de aprendizaje automático que pueden entrenarse para completar muchas tareas, reciben su nombre porque su arquitectura está inspirada en la forma en que las neuronas biológicas procesan la información en el cerebro humano.

Hace unos seis años, los científicos descubrieron un nuevo tipo de modelo de red neuronal más potente conocido como transformador. Estos modelos pueden lograr un rendimiento sin precedentes, como generar texto a partir de indicaciones con una precisión casi humana. Por ejemplo, un transformador subyace a los sistemas de IA como ChatGPT y Bard. Aunque son increíblemente efectivos, los transformadores también son misteriosos: a diferencia de otros modelos de redes neuronales inspirados en el cerebro, no ha estado claro cómo construirlos utilizando componentes biológicos.

Ahora, investigadores del MIT, el Laboratorio de IA MIT-IBM Watson y la Escuela de Medicina de Harvard han producido una hipótesis que podría explicar cómo se podría construir un transformador utilizando elementos biológicos en el cerebro. Sugieren que una red biológica compuesta por neuronas y otras células cerebrales llamadas astrocitos podría realizar la misma computación central que un transformador.

Investigaciones recientes han demostrado que los astrocitos, células no neuronales abundantes en el cerebro, se comunican con las neuronas y desempeñan un papel en algunos procesos fisiológicos, como la regulación del flujo sanguíneo. Pero los científicos aún no comprenden claramente qué hacen computacionalmente estas células.

Con el nuevo estudio, publicado esta semana en formato de acceso abierto en las Actas de la Academia Nacional de Ciencias, los investigadores exploraron el papel que desempeñan los astrocitos en el cerebro desde una perspectiva computacional y crearon un modelo matemático que muestra cómo podrían utilizarse, junto con las neuronas, para construir un transformador biológicamente plausible.

Su hipótesis proporciona información que podría estimular futuras investigaciones en neurociencia sobre cómo funciona el cerebro humano. Al mismo tiempo, podría ayudar a los investigadores de aprendizaje automático a explicar por qué los transformadores tienen tanto éxito en una amplia variedad de tareas complejas.

"El cerebro es mucho mejor que las mejores redes neuronales artificiales que hemos desarrollado, pero en realidad no sabemos exactamente cómo funciona el cerebro. Hay valor científico en pensar en las conexiones entre el hardware biológico y las redes de inteligencia artificial a gran escala. Esto es neurociencia para la IA y la IA para la neurociencia", dice Dmitry Krotov, miembro del equipo de investigación en el Laboratorio de IA MIT-IBM Watson y autor principal del artículo de investigación.

Además de Krotov, los autores del artículo son Leo Kozachkov, autor principal y postdoctorado en el Departamento de Cerebro y Ciencias Cognitivas del MIT; y Ksenia V. Kastanenka, profesora asistente de neurobiología en la Escuela de Medicina de Harvard e investigadora asistente en el Instituto de Investigación del General de Massachusetts.

Un imposible biológico se vuelve plausible

Los transformadores funcionan de manera diferente a otros modelos de redes neuronales. Por ejemplo, una red neural recurrente entrenada para el procesamiento del lenguaje natural compararía cada palabra en una oración con un estado interno determinado por las palabras anteriores. En cambio, un transformador compara todas las palabras de la oración a la vez para generar una predicción, un proceso llamado autoatención.

Para que la autoatención funcione, el transformador debe mantener todas las palabras listas en alguna forma de memoria, explica Krotov, pero esto no parecía biológicamente posible debido a la forma en que se comunican las neuronas.

Sin embargo, hace algunos años, los científicos que estudian un tipo ligeramente diferente de modelo de aprendizaje automático (conocido como Memoria Asociada Densa) se dieron cuenta de que este mecanismo de autoatención podría ocurrir en el cerebro, pero solo si hubiera comunicación entre al menos tres neuronas.

"El número tres realmente me llamó la atención porque se sabe en neurociencia que estas células llamadas astrocitos, que no son neuronas, forman conexiones de tres vías con las neuronas, lo que se llama sinapsis tripartitas", dice Kozachkov.

Cuando dos neuronas se comunican, una neurona presináptica envía sustancias químicas llamadas neurotransmisores a través de la sinapsis que la conecta a una neurona postsináptica. A veces, también está conectado un astrocito: envuelve una larga y delgada extensión alrededor de la sinapsis, creando una sinapsis tripartita (de tres partes). Un astrocito puede formar millones de sinapsis tripartitas.

El astrocito recoge algunos neurotransmisores que fluyen a través de la unión sináptica. En algún momento, el astrocito puede enviar señales de vuelta a las neuronas. Debido a que los astrocitos operan en una escala de tiempo mucho más larga que las neuronas, crean señales elevando lentamente su respuesta de calcio y luego disminuyéndola, estas células pueden retener e integrar información comunicada por las neuronas. De esta manera, los astrocitos pueden formar un tipo de búfer de memoria, agrega Krotov.

"Si lo piensas desde esa perspectiva, entonces los astrocitos son extremadamente naturales para la computación precisa que necesitamos para realizar la operación de atención dentro de los transformadores", agrega.

Construyendo una red neuronastroglial

Con esta idea, los investigadores formaron la hipótesis de que las astrocitos podrían desempeñar un papel en cómo los transformadores computan. Luego se propusieron construir un modelo matemático de una red neuronastroglial que funcionara como un transformador.

Tomaron las matemáticas básicas que comprenden un transformador y desarrollaron modelos biofísicos simples de lo que hacen las astrocitos y las neuronas cuando se comunican en el cerebro, basándose en una investigación exhaustiva de la literatura y la orientación de colaboradores neurocientíficos.

Luego combinaron los modelos de ciertas formas hasta llegar a una ecuación de una red neuronastroglial que describe la autoatención de un transformador.

"A veces encontramos que ciertas cosas que queríamos que fueran ciertas no podían implementarse de manera plausible. Así que tuvimos que pensar en soluciones alternativas. Hay algunas cosas en el artículo que son aproximaciones muy cuidadosas de la arquitectura del generador para poder emparejarla de manera biológicamente plausible", dice Kozachkov.

A través de su análisis, los investigadores demostraron que su red neuronastroglial biofísica coincide teóricamente con un transformador. Además, llevaron a cabo simulaciones numéricas alimentando imágenes y párrafos de texto a modelos de transformadores y comparando las respuestas con las de su red neuronastroglial simulada. Ambos respondieron a las indicaciones de manera similar, confirmando su modelo teórico.

"Habiendo permanecido en silencio eléctricamente durante más de un siglo de registros cerebrales, los astrocitos son una de las células más abundantes, pero menos exploradas, del cerebro. El potencial de liberar el poder computacional de la otra mitad de nuestro cerebro es enorme", dice Konstantinos Michmizos, profesor asociado de ciencias de la computación en la Universidad Rutgers, quien no estuvo involucrado en este trabajo. "Este estudio abre un fascinante ciclo iterativo, desde la comprensión de cómo realmente puede surgir el comportamiento inteligente en el cerebro, hasta la traducción de hipótesis disruptivas en nuevas herramientas que exhiben inteligencia similar a la humana".

El siguiente paso para los investigadores es dar el salto de la teoría a la práctica. Esperan comparar las predicciones del modelo con las observadas en experimentos biológicos y utilizar este conocimiento para refinar, o posiblemente refutar, su hipótesis.

Además, una implicación de su estudio es que los astrocitos podrían estar involucrados en la memoria a largo plazo, ya que la red necesita almacenar información para poder actuar sobre ella en el futuro. Investigaciones adicionales podrían investigar esta idea más a fondo, dice Krotov.

"Por muchas razones, los astrocitos son extremadamente importantes para la cognición y el comportamiento, y operan de manera fundamentalmente diferente a las neuronas. Mi mayor esperanza para este artículo es que catalice una serie de investigaciones en neurociencia computacional sobre las células gliales, y en particular, los astrocitos", agrega Kozachkov.

Esta investigación fue apoyada, en parte, por la Fundación BrightFocus y el Instituto Nacional de Salud.