El martes, investigadores de la Universidad de Stanford y de la Universidad de California, Berkeley, publicaron un documento de investigación que pretende mostrar cambios en los resultados de GPT-4 a lo largo del tiempo. El documento alimenta una creencia común pero no probada de que el modelo de lenguaje de IA ha empeorado en tareas de codificación y composición en los últimos meses. Algunos expertos no están convencidos por los resultados, pero afirman que la falta de certeza señala un problema más grande con la forma en que OpenAI maneja los lanzamientos de sus modelos.

En un estudio titulado "¿Cómo está cambiando el comportamiento de ChatGPT con el tiempo?", publicado en arXiv, Lingjiao Chen, Matei Zaharia y James Zou, ponen en duda el rendimiento constante de los modelos de lenguaje grandes (LLM) de OpenAI, específicamente GPT-3.5 y GPT-4. Usando acceso a la API, probaron las versiones de marzo y junio de 2023 de estos modelos en tareas como resolución de problemas matemáticos, respuesta a preguntas sensibles, generación de código y razonamiento visual. Es especialmente notable que la capacidad de GPT-4 para identificar números primos haya disminuido drásticamente, pasando de una precisión del 97,6% en marzo al 2,4% en junio. Curiosamente, GPT-3.5 mostró un mejor rendimiento en el mismo periodo.
Rendimiento de las versiones de GPT-4 y GPT-3.5 de marzo de 2023 y junio de 2023 en cuatro tareas, tomado de "¿Cómo está cambiando el comportamiento de ChatGPT con el tiempo?".
Este estudio llega poco después de que la gente se quejara con frecuencia de que GPT-4 ha disminuido subjetivamente en rendimiento en los últimos meses. Las teorías populares sobre por qué incluyen que OpenAI "destila" los modelos para reducir su sobrecarga computacional en busca de acelerar la salida y ahorrar recursos de GPU, el ajuste fino (entrenamiento adicional) para reducir las salidas dañinas que pueden tener efectos no deseados y una serie de teorías de conspiración no respaldadas, como que OpenAI reduce las capacidades de codificación de GPT-4 para que más personas paguen por GitHub Copilot.

Mientras tanto, OpenAI ha negado consistentemente cualquier afirmación de que GPT-4 haya disminuido en capacidad. Hasta el jueves pasado, el vicepresidente de Producto de OpenAI, Peter Welinder, tuiteó: "No, no hemos vuelto a GPT-4 más tonto. Todo lo contrario: hacemos que cada nueva versión sea más inteligente que la anterior. Hipótesis actual: cuando lo usas más intensamente, empiezas a notar problemas que antes no veías".
Si bien este nuevo estudio puede parecer una evidencia contundente para demostrar las sospechas de los críticos de GPT-4, otros dicen que no hay que apresurarse. Arvind Narayanan, profesor de ciencias de la computación en Princeton, considera que sus hallazgos no demuestran de manera concluyente una disminución en el rendimiento de GPT-4 y son potencialmente consistentes con los ajustes de ajuste fino realizados por OpenAI. Por ejemplo, en cuanto a la medición de las capacidades de generación de código, criticó el estudio por evaluar la inmediatez de la capacidad del código para ser ejecutado en lugar de su corrección.
"El cambio que informan es que el nuevo GPT-4 agrega texto no relacionado con el código a su salida. No evalúan la corrección del código (extraño)", tuiteó. "Solo verifican si el código se puede ejecutar directamente. Por lo tanto, el intento del nuevo modelo de ser más útil le jugó en contra".
El investigador de IA Simon Willison también desafía las conclusiones del artículo. "No me resulta muy convincente", le dijo a Ars. "Una parte importante de su crítica se refiere a si la salida de código está envuelta en acentos graves de Markdown o no". También encuentra otros problemas con la metodología del artículo. "Me parece que ejecutaron todo con una temperatura de 0.1", dijo. "Esto hace que los resultados sean ligeramente más deterministas, pero muy pocas solicitudes del mundo real se ejecutan a esa temperatura, así que no creo que nos diga mucho sobre los casos de uso del mundo real para los modelos".
Hasta ahora, Willison cree que cualquier cambio percibido en las capacidades de GPT-4 proviene de la novedad de las LLM que se desgasta. Después de todo, GPT-4 provocó una ola de pánico por la IA poco después de su lanzamiento y una vez se probó si podría dominar el mundo. Ahora que la tecnología se ha vuelto más mundana, sus fallas parecen evidentes.
"Cuando salió GPT-4, todavía estábamos en un punto en el que todo lo que las LLM podían hacer parecía milagroso", dijo Willison a Ars. "Ahora eso ha pasado y las personas están tratando de hacer trabajos reales con ellas, por lo que sus fallas se vuelven más evidentes, lo que las hace parecer menos capaces de lo que parecían al principio".
Por ahora, OpenAI está al tanto de la nueva investigación y dice que está monitoreando los informes sobre la disminución de las capacidades de GPT-4. "El equipo está al tanto de las regresiones informadas y está investigando el asunto", tuiteó Logan Kilpatrick, jefe de relaciones con desarrolladores de OpenAI, el miércoles.
OpenAI es muy cerrado
Ampliar / Una representación realista de un encuentro con ChatGPT Plus. Aunque el artículo de Chen, Zaharia y Zou puede que no sea perfecto, Willison simpatiza con la dificultad de medir modelos de lenguaje de manera precisa y objetiva. Una y otra vez, los críticos señalan el enfoque actualmente cerrado de OpenAI hacia la IA, que para GPT-4 no reveló la fuente de los materiales de entrenamiento, el código fuente, los pesos de la red neuronal ni siquiera un artículo que describiera su arquitectura.

Publicidad Con un modelo cerrado en forma de caja negra como GPT-4, los investigadores quedan a tientas en la oscuridad tratando de definir las propiedades de un sistema que puede tener componentes desconocidos adicionales, como filtros de seguridad, o los recientemente rumoreados ocho modelos de "mezcla de expertos" que trabajan en conjunto bajo el capó de GPT-4. Además, el modelo puede cambiar en cualquier momento sin previo aviso.
"Los proveedores de modelos de IA están quedando rezagados en las mejores prácticas de infraestructura de software tradicional", dice el escritor y futurista Daniel Jeffries, quien cree que los vendedores de IA necesitan ofrecer soporte a largo plazo para versiones antiguas de los modelos cuando implementan cambios "para que los desarrolladores de software puedan construir sobre un artefacto confiable, no uno que vaya a cambiar de la noche a la mañana sin previo aviso".
Una solución a esta inestabilidad para los desarrolladores y la incertidumbre para los investigadores podría ser el uso de modelos de código abierto o disponibles para su consulta, como Llama de Meta. Con archivos de pesos distribuidos ampliamente (el núcleo de los datos de la red neural del modelo), estos modelos pueden permitir a los investigadores trabajar desde una misma línea base y obtener resultados repetibles a lo largo del tiempo sin que una compañía (como OpenAI) cambie repentinamente de modelos o revoque el acceso a través de una API.
En esta misma línea, la investigadora de IA, Dra. Sasha Luccioni de Hugging Face, también considera problemática la opacidad de OpenAI. "Cualquier resultado en modelos de código cerrado no es reproducible ni verificable, y por lo tanto, desde una perspectiva científica, estamos comparando mapaches y ardillas", dijo a Ars. "No le corresponde a los científicos supervisar continuamente los LLM implementados. Le corresponde a los creadores de modelos proporcionar acceso a los modelos subyacentes, al menos con fines de auditoría".
Luccioni señaló la falta de puntos de referencia estandarizados en el campo, lo que facilitaría la comparación de diferentes versiones del mismo modelo. Ella dice que con cada lanzamiento de modelo, los desarrolladores de modelos de IA deberían incluir resultados de puntos de referencia comunes como SuperGLUE y WikiText, y también de puntos de referencia de sesgos como BOLD y HONEST. "Deberían proporcionar resultados brutos, no solo métricas generales, para que podamos ver dónde tienen éxito y en qué fallan", dice ella.
Willison está de acuerdo. "Honestamente, la falta de notas de lanzamiento y transparencia puede ser la mayor historia aquí", dijo a Ars. "¿Cómo se supone que debemos construir software confiable sobre una plataforma que cambia de manera completamente no documentada y misteriosa cada pocos meses?".