El modelo de lenguaje de OpenAI, ChatGPT, ha sido encontrado respondiendo incorrectamente preguntas de ingeniería de software en aproximadamente el 52 por ciento de los casos, según un estudio realizado por investigadores de la Universidad de Purdue. A pesar de su popularidad, hasta ahora no se había realizado una investigación exhaustiva sobre la precisión y utilidad de las respuestas de ChatGPT en el contexto de las consultas de ingeniería de software. Para abordar esta brecha, los investigadores analizaron 517 preguntas de Stack Overflow que fueron respondidas por ChatGPT.
El análisis reveló que el 52 por ciento de las respuestas de ChatGPT contenían inexactitudes, mientras que el 77 por ciento eran excesivamente verbosas. Curiosamente, se descubrió que el 54 por ciento de los errores se debían a la falta de comprensión de ChatGPT sobre los conceptos en las preguntas. Incluso cuando entendía las preguntas, a menudo no lograba demostrar una comprensión de cómo resolver los problemas presentados, lo que llevaba a un alto número de errores conceptuales.
Además, los investigadores señalaron una limitación en la capacidad de razonamiento de ChatGPT. En muchas ocasiones, ChatGPT proporcionaba soluciones, código o fórmulas sin considerar completamente las posibles consecuencias. Si bien la ingeniería de indicaciones y el ajuste fino con la participación humana pueden ayudar parcialmente a explorar los problemas con ChatGPT, no son suficientes para inyectar razonamiento en el modelo de lenguaje.
El estudio también identificó otros problemas de calidad en ChatGPT, como la verbosidad e inconsistencia en sus respuestas. El análisis manual reveló un número significativo de errores conceptuales y lógicos en las respuestas proporcionadas por ChatGPT. El análisis lingüístico mostró que las respuestas de ChatGPT eran típicamente formales y rara vez transmitían sentimientos negativos.
A pesar de las inexactitudes y problemas de calidad, los usuarios aún preferían las respuestas de ChatGPT aproximadamente el 39,34 por ciento del tiempo debido a su estilo de lenguaje completo y articulado. Sin embargo, los investigadores enfatizan la importancia de corregir exhaustivamente los errores en ChatGPT, así como la necesidad de educar a los usuarios sobre los riesgos potenciales asociados con respuestas aparentemente precisas.
En general, el estudio pone de relieve las limitaciones y áreas de mejora cuando se trata de utilizar ChatGPT para consultas de ingeniería de software.