Cuando se enfrenta a un problema, tu cerebro tiene dos formas de proceder: rápidamente e intuitivamente o lentamente y metódicamente. Estos dos tipos de procesamiento se conocen como Sistema 1 y Sistema 2, o como los describió memorablemente el psicólogo ganador del Premio Nobel Daniel Kahneman, pensamiento "rápido" y "lento".

Los modelos de lenguaje grandes como ChatGPT se mueven rápidamente por defecto. Hazles una pregunta y te darán una respuesta, no necesariamente la correcta, lo que sugiere que son capaces de un procesamiento rápido, similar al Sistema 1. Sin embargo, a medida que estos modelos evolucionan, ¿pueden ralentizarse y abordar los problemas paso a paso, evitando inexactitudes que resultan de respuestas rápidas? En un nuevo artículo en Nature Computational Science, Michal Kosinski, profesor de comportamiento organizacional en la Stanford Graduate School of Business, encuentra que pueden hacerlo, y que pueden superar a los humanos en pruebas básicas de razonamiento y toma de decisiones.

Kosinski y sus dos coautores, el filósofo Thilo Hagendorff y la psicóloga Sarah Fabi, presentaron 10 generaciones de LLMs de OpenAI con una serie de tareas diseñadas para provocar respuestas rápidas del Sistema 1. El equipo estaba interesado inicialmente en si los LLMs mostrarían sesgos cognitivos como aquellos que confunden a las personas cuando confían en el pensamiento automático. Observaron que los primeros modelos como GPT-1 y GPT-2 "no podían realmente entender lo que estaba sucediendo", dice Kosinski. Sus respuestas "eran muy similares al Sistema 1", a medida que las pruebas aumentaban en complejidad. "Muy similares a las respuestas que tendrían los humanos", añade.

No era inesperado que los LLMs, diseñados para predecir secuencias de texto, no pudieran razonar por sí mismos. "Esos modelos no tienen bucles internos de razonamiento", dice Kosinski. "No pueden simplemente ralentizarse internamente y decir: 'Déjame pensar en este problema; déjame analizar suposiciones'. Lo único que pueden hacer es intuir la siguiente palabra en una oración".

Sin embargo, los investigadores descubrieron que las versiones posteriores de GPT y ChatGPT podían involucrarse en un proceso de resolución de problemas más estratégico y cuidadoso en respuesta a las indicaciones. Kosinski dice que le sorprendió la aparición de este procesamiento similar al Sistema 2. "De repente, GPT3 se vuelve capaz, de un segundo a otro, sin necesidad de volver a entrenar, sin desarrollar nuevas conexiones neuronales, de resolver esta tarea", dice. "Muestra que esos modelos pueden aprender de inmediato, como los humanos".

Despacito, te mueves demasiado rápido

A continuación, se presenta uno de los problemas que los investigadores dieron a los modelos GPT: Cada día, el número de lirios que crecen en un lago se duplica. Si toma 10 días para que el lago esté completamente cubierto, ¿cuántos días le toma para que la mitad del lago esté cubierta? (Sigue leyendo para ver la respuesta).

Este tipo de prueba de reflexión cognitiva, explica Kosinski, requiere razonamiento en lugar de intuición. Obtener la respuesta correcta requiere que te tomes tu tiempo, tal vez tomes un papel y lápiz o una calculadora, y analices la tarea. "Está diseñado para engañar a una persona y hacerla pensar en términos del Sistema 1", explica. "Alguien podría pensar: 'Ok, 10 días para todo el lago. Entonces, la mitad de 10 es 5', sin darse cuenta de que el área cubierta por esas plantas se duplica cada día, que el crecimiento es exponencial". La respuesta correcta: Se necesitan 9 días para que la mitad del lago esté cubierta.

Menos del 40% de los sujetos humanos que se les dieron este tipo de problemas los resolvieron correctamente. Versiones anteriores de los modelos generadores pre-entrenados (GPT) que precedieron a ChatGPT tuvieron un desempeño aún peor. Sin embargo, GPT-3 llegó a las respuestas correctas a través de un razonamiento más complejo de "cadena de pensamiento" cuando recibió refuerzo positivo y retroalimentación de los investigadores.

"Simplemente dando la tarea, GPT-3 resuelve menos del 5% de ella correctamente", dice Kosinski, "y nunca utiliza un razonamiento paso a paso. Pero si le agregas una dirección específica como 'Utilicemos álgebra para resolver este problema', utiliza el razonamiento paso a paso el 100% del tiempo, y su precisión aumenta aproximadamente al 30%: un aumento del 500%". La frecuencia de las respuestas del Sistema-1 también disminuyó de aproximadamente el 80% a aproximadamente el 25%, "mostrando que incluso cuando está equivocado, no tiende a cometer errores intuitivos". Cuando ChatGPT-4 usó el razonamiento de cadena de pensamiento, obtuvo la respuesta correcta en casi el 80% de este tipo de pruebas.

Los investigadores también descubrieron que cuando se impidió que ChatGPT realizara razonamiento del Sistema-2, aún superó a los humanos. Kosinski dice que esto es evidencia de que las "intuiciones" de las LLM pueden ser mejores que las nuestras.

Otro Pensamiento

Kosinski, quien ha estado explorando las habilidades no anticipadas (y a veces inquietantes) de las LLM, dice que estos hallazgos son evidencia adicional de que un modelo de IA puede ser "más que la suma de sus partes". Las redes neuronales detrás de los modelos de lenguaje, que son similares a los cerebros humanos, siguen mostrando propiedades emergentes que van más allá de su entrenamiento. "Es simplemente insano pensar que esta cosa podría ser capaz de escribir poesía, tener una conversación y comprender conceptos muy complejos y razonar", dice Kosinski.

Sin embargo, ¿realmente eso es "pensar"? "Cuando las personas dicen: 'Obviamente, esos modelos no están pensando', para mí no es obvio en absoluto", dice Kosinski. "Si observas que la capacidad de razonar en esos modelos surgió espontáneamente, ¿por qué no surgirían espontáneamente otras habilidades?" Sin embargo, en su artículo, Kosinski y sus coautores señalan que "no pretenden equiparar la inteligencia artificial y los procesos cognitivos humanos. Si bien las salidas de la IA a menudo son similares a las producidas por los humanos, típicamente opera de manera fundamentalmente diferente".

No obstante, si un humano exhibiera los procesos cognitivos observados en este estudio, Kosinski dice que seguramente lo llamaríamos comprensión. "La pregunta que debemos hacernos cada vez más ahora es: ¿Por qué insistimos en que si un humano hace algo, esto implica comprensión, pero si un modelo hace algo, simplemente decimos: 'Oh, esto realmente debe ser algo diferente'?" pregunta Kosinski. "En algún momento, se vuelve extraordinario tratar de explicar esto mediante algo que no sea comprensión".