Todos los días nos enfrentamos a diferentes necesidades. Tengo hambre pero estoy agotado; ¿debería acostarme en el sofá o preparar la cena? Me estoy sobrecalentando en temperaturas peligrosas, pero también tengo mucha sed; ¿debería beber el agua tibia que ha estado calentándose bajo el sol, o meter la cabeza en el congelador hasta que recupere la capacidad mental para hacer hielo?

Cuando nos enfrentamos a dilemas, a menudo seguimos nuestros instintos básicos sin pensarlo. Pero bajo el capó, múltiples redes neuronales compiten para tomar la "mejor" decisión en cualquier momento. Dormir antes que comer. Congelador antes que agua tibia. Pueden ser decisiones terribles a posteriori, pero la próxima vez, aprendemos de nuestros errores pasados.

Nuestra capacidad de adaptación a un mundo en constante cambio es un superpoder que actualmente escapa a la mayoría de los agentes de inteligencia artificial. Incluso los agentes de inteligencia artificial más sofisticados colapsan o requieren cantidades insostenibles de tiempo de computación mientras tratan de equilibrar metas conflictivas.

Según un equipo liderado por el Dr. Jonathan Cohen en el Instituto de Neurociencia de Princeton, la razón es simple: los sistemas de aprendizaje automático suelen actuar como una entidad única, obligados a evaluar, calcular y ejecutar una meta a la vez. Aunque puedan aprender de sus errores, la inteligencia artificial tiene dificultades para encontrar el equilibrio adecuado cuando se enfrenta a múltiples metas opuestas simultáneamente.

Entonces, ¿por qué no descomponer la inteligencia artificial?

En un nuevo estudio publicado en PNAS, el equipo tomó inspiración de la neurociencia cognitiva y construyó un agente de inteligencia artificial modular.

La idea es aparentemente simple. En lugar de una inteligencia artificial monolítica, una única red que abarca todo el "yo", el equipo construyó un agente modular, cada parte con su propia "motivación" y metas pero comandando un solo "cuerpo". Como una sociedad democrática, el sistema de inteligencia artificial discute internamente para decidir la mejor respuesta, donde la acción más probable de brindar el mayor resultado ganador guía su siguiente paso.

En varias simulaciones, la inteligencia artificial modular superó a su contraparte monolítica clásica. Su capacidad de adaptación brilló especialmente cuando los investigadores aumentaron artificialmente el número de metas que debía mantener simultáneamente. La inteligencia artificial tipo Lego se adaptó rápidamente, mientras que su contraparte monolítica luchó por ponerse al día.

"Una de las preguntas más fundamentales sobre la agencia es cómo un individuo maneja necesidades conflictivas", dijo el equipo. Al descomponer un agente de inteligencia artificial, la investigación no solo proporciona información sobre agentes de aprendizaje automático más inteligentes. También "allana el camino para comprender los conflictos psicológicos inherentes a la psique humana", escribió el Dr. Rober Boshra en la Universidad de Princeton, quien no estuvo involucrado en el trabajo.

El Juego de la Vida

¿Cómo aprenden los seres inteligentes a equilibrar necesidades conflictivas en un mundo complejo y cambiante?

Esta pregunta filosófica ha afectado a múltiples campos, como la neurociencia, la psicología y la economía, que exploran la naturaleza humana. Aún no tenemos respuestas claras. Pero con la inteligencia artificial enfrentando cada vez más desafíos similares al entrar en el mundo real, es hora de abordar el antiguo problema de frente.

El nuevo estudio aceptó el desafío en forma de un juego de rol (RPG) simple. Hay dos personajes que navegan por un mundo parecido a una cuadrícula, cada uno tratando de encontrar recursos para sobrevivir.

El primer concursante: el agente monolítico, también conocido como el "yo", entrenado utilizando el aprendizaje profundo con refuerzo (DQL). Popularizado por DeepMind, el algoritmo es especialmente poderoso para descubrir el próximo paso óptimo según su estado actual. Por ejemplo, en un videojuego, ¿debería ir a la izquierda o a la derecha? ¿Mover qué pieza de ajedrez o Go, y hacia dónde? Aquí, el algoritmo analiza todo el entorno mientras sigue una señal de recompensa única, es decir, su meta final. En cierto sentido, el agente monolítico es un cerebro unificado que intenta maximizar el mejor resultado después de procesar simultáneamente todos los recursos en conjunto.

El oponente: la inteligencia artificial modular. Como un pulpo con extremidades semiautónomas, el agente de inteligencia artificial se des compone en subagentes, cada uno con sus propias metas y retroalimentación. Para que sea una lucha justa, cada módulo también se entrena con DQL. Los "cerebros" separados observan su entorno y aprenden a seleccionar la mejor opción, pero solo adaptada a sus propias metas. Luego se suman los resultados previstos. La solución con el mayor potencial de resultado óptimo se selecciona, guiando al agente de inteligencia artificial hacia su próxima elección.

¿Y el campo de juego?

El juego es una versión extremadamente simplificada de un juego de supervivencia. Cada agente de inteligencia artificial deambula por una cuadrícula bidimensional que tiene diferentes tipos de recursos ocultos en algunas regiones. El objetivo es mantener las cuatro estadísticas del agente en su nivel establecido, cada una disminuyendo gradualmente con el tiempo. Cuando varias estadísticas disminuyen, le toca a la inteligencia artificial decidir cuál priorizar.

Para los jugadores de videojuegos, piensen en la prueba como ser lanzado a un nuevo mapa de juego y tratar de encontrar recursos para aumentar, por ejemplo, salud, magia, resistencia y poder de ataque. Para nuestra vida cotidiana, se trata de equilibrar el hambre, la temperatura, el sueño y otras necesidades fisiológicas básicas.

"Por ejemplo, si el agente tiene una estadística de 'hambre' baja, puede recolectar el recurso de 'comida' moviéndose a la ubicación de ese recurso", explicó el equipo.

Bosque por los Árboles

La primera prueba comenzó en un entorno relativamente sencillo. La ubicación de cada objetivo de recurso estaba fija en la esquina de la arena de juego. El agente monolítico mantuvo fácilmente sus cuatro estadísticas después de 30,000 pasos de entrenamiento, aunque pasó por un período de sobreajuste y subajuste hasta alcanzar los objetivos deseados. En contraste, el agente modular aprendió mucho más rápido. A los 5,000 pasos de aprendizaje, el agente ya había captado una comprensión del "estado del mundo".

Parte de la destreza de la IA modular proviene de un sentido intrínseco de exploración libre, dijeron los autores. A diferencia de los métodos anteriores para sistemas modulares que dividen y conquistan para avanzar hacia una meta final, aquí la IA representa una relación social más integral, en la que algunos módulos ganan y otros pierden a través de una constante competencia interna.

Debido a que el "cuerpo" del agente de IA está guiado solo por el módulo ganador, los perdedores tienen que aceptar una decisión con la que no están de acuerdo y se ven obligados a enfrentar una nueva realidad. Luego, tienen que adaptarse y recalcular rápidamente la mejor solución para el siguiente paso. En otras palabras, los módulos a menudo se encuentran fuera de su zona de confort. Es un amor duro, pero los resultados inesperados los obligan a considerar nuevas soluciones, a veces obteniendo mejores resultados que no habrían considerado si enfrentaran el problema solos.

En general, el sistema modular forma un "ciclo virtuoso con la exploración" para mejorar aún más las acciones de la IA, según el autor del estudio, Zack Dulberg.

Esta adaptabilidad brilló aún más cuando el equipo desafió a ambos agentes de IA en entornos cambiantes. En una prueba, las posiciones de los objetivos de recursos se movieron a una ubicación de cuadrícula aleatoria en escalas de tiempo esporádicas. La IA modular rápidamente se dio cuenta de los cambios y se adaptó a ellos, mientras que el agente monolítico lo hizo mucho peor.

En otra prueba, el equipo aumentó la dificultad, requiriendo que los agentes de IA mantuvieran simultáneamente ocho factores en lugar de los cuatro originales. La prueba abordó el problema de que los cálculos se vuelven cada vez más improbables en términos de tiempo y consumo de energía a medida que aumenta el número de variables, conocido como la "maldición de la dimensionalidad".

El agente modular se adaptó rápidamente para buscar recursos y mantener sus metas. En contraste, el agente monolítico nuevamente tuvo dificultades y tardó mucho más en volver a los niveles deseados para cada una de sus estadísticas.

Uno contra Muchos

El enfoque modular es otro ejemplo de aprovechar la neurociencia para el desarrollo de la IA, a la vez que proporciona información sobre cómo funcionan nuestros cerebros.

Similar a trabajos anteriores, los módulos modulares muestran que es posible que un solo agente de IA aprenda subproblemas separados y más fáciles en paralelo de manera relativamente descentralizada en términos de procesamiento de datos. Agregar un modelo con un sistema de control jerárquico podría fortalecer la IA, según los autores, porque ambas estructuras existen en el mundo natural.

Por ahora, cada módulo está programado para sus propios beneficios, como una multiplicidad de sí mismos. Pero nuestras metas en la vida a menudo están interconectadas; por ejemplo, aliviar la sed y combatir el calor no son mutuamente excluyentes. El equipo destaca la necesidad de integrar estas intersecciones y aprender si son heredadas o aprendidas en futuras pruebas.

Según Dulberg, lo desconocido es parte de la emoción. "¿Cómo se desarrollan los módulos? ¿Qué características del entorno de desarrollo ejercen presión sobre diferentes soluciones?" preguntó. "¿Y explican los beneficios de la modularidad por qué el conflicto psicológico interno parece tan central para la condición humana?"

Crédito de la imagen: Anestiev/Pixabay