En TikTok, entre los videos de "prepárate conmigo", consejos para la vida y memes, algunos robots están trabajando en un desafío que muchos de nosotros hemos enfrentado en algún momento de nuestras vidas: vencer a Super Mario World. Durante la última semana, los usuarios han estado transmitiendo en vivo los intentos de un inteligencia artificial (IA) para aprender a jugar Mario, y para un robot en particular, todo va muy bien. Su nombre es Rupert, y acaba de superar el nivel 2.

La estrategia de la IA será familiar para aquellos que recuerden la primera vez que tuvieron un controlador de Super Nintendo en sus manos. Rupert corre, salta, aplasta enemigos, cae de acantilados y muere, una y otra vez. Cada vez que muere, Rupert lo intenta de nuevo. Por lo general, hace movimientos casi idénticos a los que lo mataron en la última ronda. Pero si observas el tiempo suficiente, notarás que Rupert está evolucionando y mejorando. Está aprendiendo.

"Es un programa diseñado para simular la selección natural con redes neuronales", dijo Join The PCMasterRace, el usuario de TikTok responsable de Rupert, quien pidió no usar su nombre real. (PCMasterRace es el nombre objetable de un subreddit sobre computadoras de escritorio).

En otras palabras, Rupert es un sistema de algoritmos de aprendizaje automático que mejora observando sus propios errores. Rupert tiene un objetivo establecido: llegar al otro extremo del nivel. Sabe qué botones puede presionar y puede ver lo que sucede en la pantalla. (En realidad, puedes ver lo que Rupert "ve" en la parte superior izquierda del video a continuación). Pero a diferencia de un jugador humano de Mario, una IA no puede simplemente hacer suposiciones de que debe evitar a los Koopas o tratar de no caer de un precipicio. Todo lo que Rupert tiene es retroalimentación positiva y negativa. Básicamente, Rupert prueba cosas al azar. Recuerda qué funcionó y qué no, y su estrategia mejora con el tiempo.

Rupert se modela en base a la evolución en el sentido de que funciona con "especies" y "generaciones". La IA prueba una estrategia particular para cada especie, que dura alrededor de dos a seis intentos. Por cada 50-100 especies, la IA recopila lo que aprendió en una "generación".

A medida que la IA juega, obtiene una puntuación de "aptitud física". La aptitud física aumenta según lo lejos que Mario llegue hacia la derecha y lo rápido que lo haga. Las generaciones con mayor aptitud física son seleccionadas para ser "reproducidas" en generaciones futuras, lo que significa que la IA se basa en el comportamiento y los patrones que funcionaron y comienza desde cero. Esto permite que su toma de decisiones se vuelva más sofisticada y compleja con el tiempo.

Avanza lentamente, pero funciona. A Rupert solo le tomó 57 generaciones vencer el nivel uno, lo que provocó celebraciones en los comentarios mientras los espectadores vitoreaban el éxito de Rupert.

Rupert, junto con otro jugador de Mario con inteligencia artificial en TikTok cariñosamente llamado George, está utilizando un programa de código abierto llamado MarI/O. Fue creado por el programador y transmisor en vivo Seth Hendrickson, quien se hace llamar SethBling en línea. MarI/O no es nuevo. Hendrickson lo lanzó hace años, pero las maquinaciones del robot tienen una renovada importancia en una era en la que la industria tecnológica quiere que creamos que la IA pronto dominará el mundo.

MarI/O es mucho más simple que un sistema como ChatGPT, pero es una ventana a cómo funcionan los modelos de inteligencia artificial. Estas herramientas de IA lanzan como spaghetti contra la pared, y los humanos diseñan sistemas para decirles si este intento fue mejor o peor que el anterior. Con el paso del tiempo, los intentos mejoran. Ahora imagina que esto sucede millones o miles de millones de veces. Puedes ver una explicación más detallada en uno de los videos de Hendrickson.

Con ChatGPT, es exponencialmente más complicado. MarI/O no tiene tantas opciones: izquierda, derecha, arriba, abajo, A, B, X e Y. Por otro lado, el idioma inglés tiene cientos de miles de palabras, una cantidad incontable de formas de combinar esas palabras y un número teóricamente infinito de ideas. MarI/O es mucho más simple que ChatGPT, y la tecnología es fundamentalmente diferente, pero si entiendes cómo funciona MarI/O, puedes extrapolar eso para comprender útilmente la tecnología de chatbot.

Lamentablemente, Rupert es solo un pequeño. Está haciendo todo lo posible, pero Rupert tendrá problemas cuando avance más en el juego. El sistema de MarI/O solo se recompensa a sí mismo en función de cuánto avance Mario a la derecha de la pantalla, pero en algunos niveles de Super Mario World, tienes que trepar para llegar a la meta en lugar de ir hacia la derecha.

"Sin embargo, estoy planeando modificarlo para que pueda escalar estructuras verticales mejor", dijo Join the PCMasterRace.