Domingo, 26 de noviembre | 1:30-1:40 p.m. | S4-SSCH02-4 | Sala N228

Aunque tanto ChatGPT como Google Bard pudieron responder preguntas de no expertos sobre la prevención del cáncer de pulmón, los exámenes y la terminología comúnmente utilizada en los informes de radiología, en este estudio ChatGPT ganó esta batalla de modelos de lenguaje grande (LLMs).

Con la asistencia de dos radiólogos para asegurar precisión, se crearon 40 preguntas para comparar ChatGPT y Bard. Se evaluaron la consistencia entre las respuestas y la precisión de los dos LLM, definiendo consistencia como el acuerdo entre las tres respuestas proporcionadas por ChatGPT o Bard, independientemente de si el concepto transmitido era correcto o incorrecto.

Al comparar los resultados del modelo LLM, Amir Ali Rahsepar, MD, compañero de imagen cardiotorácica de UCLA Health, y su equipo encontraron que las respuestas de ChatGPT fueron consistentes el 90% de las veces, es decir, 36 de 40 veces, mientras que las respuestas de Bard solo fueron consistentes el 57.5% de las veces, es decir, 23 de 40.

De las 120 respuestas de ChatGPT, el 70.8% fueron correctas (85), el 11.7% fueron parcialmente correctas (14), y el 17.5% fueron incorrectas (21). En un desglose del rendimiento de Bard al responder 97 preguntas, el 51.7% de las respuestas de Bard fueron correctas (62), el 9.2% fueron parcialmente correctas (11), y el 20% fueron incorrectas (24), según las conclusiones de Rahsepar.

Aunque el uso de la inteligencia artificial ofrece nuevas posibilidades, según Rahsepar, también presenta desafíos que deben ser cuidadosamente revisados por expertos para evitar una carga innecesaria en los pacientes y los trabajadores de la salud.

"Es esencial que los desarrolladores de LLM sean conscientes de la complejidad de la toma de decisiones en el ámbito de la salud e implementen salvaguardias serias para todas las interacciones relacionadas con la salud", escribió Rahsepar.

Obtenga más información en esta sesión del domingo por la tarde.