Un estudio realizado a principios de este mes ha demostrado que el chatbot de inteligencia artificial ChatGPT ha sido capaz de aprobar casi por completo el examen del consejo de radiología.

La radiología es una "rama de la medicina que utiliza tecnología de imagen para diagnosticar y tratar enfermedades", según describe la Enciclopedia Médica MedlinePlus.

El estudio, publicado en la revista revisada por colegas Radiology, se llevó a cabo entre finales de febrero y principios de marzo de este año, donde el chatbot de inteligencia artificial fue sometido a un cuestionario organizado de 150 preguntas de opción múltiple que "está diseñado para igualar el estilo, el contenido y la dificultad de los exámenes del Real Colegio Canadiense y la Junta Estadounidense de Radiología".

El rendimiento del chatbot de IA fue evaluado por tema y por tipo de pregunta.

Los tipos de preguntas que se dieron se dividieron en varias categorías. Por ejemplo, hay preguntas de menor nivel (que tienen que ver con el recuerdo y la comprensión) y preguntas de mayor nivel (que requieren la aplicación y el análisis para responder). Cabe señalar que las preguntas de radiología no incluyeron imágenes.

En general, respondió el 69% de las preguntas correctamente, tan solo un 1% menos que el umbral de aprobación del examen, con solo 46 respuestas incorrectas de las 150 preguntas que se le hicieron.

El ChatGPT tuvo un mejor desempeño en las preguntas consideradas de menor nivel de pensamiento, respondiendo correctamente el 84% de esas preguntas. El chatbot de IA solo respondió correctamente el 60% de todas las preguntas consideradas de mayor nivel de pensamiento.

El chatbot mostró ser menos eficiente para abordar preguntas que involucraban cálculos, clasificación y aplicación conceptual. El estudio afirma que el chatbot "utilizó constantemente un lenguaje confiado, incluso cuando era incorrecto".

"El uso de modelos de lenguaje amplios como el ChatGPT está explotando y solo seguirá aumentando", dijo el autor principal del estudio, Rajesh Bhayana, MD. "Nuestra investigación proporciona información sobre el rendimiento del ChatGPT en un contexto de radiología, destacando el increíble potencial de los modelos de lenguaje amplios, junto con las limitaciones actuales que lo hacen poco fiable".

Un estudio separado también examinó el rendimiento de GPT-4, el último LLM de OpenAI, en el examen del consejo de radiología, afirmando que demostró grandes mejoras en comparación con el GPT-3.5, en el que se basó ChatGPT.

El GPT-4 se evaluó en las mismas 150 preguntas que su predecesor, y los investigadores compararon su rendimiento con el de Chat-GPT. En total, GPT-4 aprobó el examen respondiendo 121 preguntas correctamente (81%), más que su predecesor, que solo respondió 104 preguntas correctamente.

El GPT-4 tuvo un mejor desempeño que el GPT-3.5 en preguntas de pensamiento de mayor nivel y preguntas que abordan hallazgos de imágenes y aplicación conceptual, pero no mostró ninguna mejora en preguntas de menor nivel de pensamiento. Además, a pesar de haber desempeñado mejor, respondió incorrectamente 12 preguntas que el GPT-3.5 respondió correctamente, nueve de ellas preguntas de menor nivel.

El estudio concluye con la "impresionante mejora en el rendimiento de ChatGPT en radiología en un corto período de tiempo", en el que los investigadores destacan el "creciente potencial de los LLM".

Sin embargo, al notar la falta de mejora en preguntas de nivel inferior, se han planteado dudas acerca de la confiabilidad mejorada del LLM para la recopilación de información.

¡Regístrese para el boletín de negocios e innovación! >>