Resumen: Un nuevo estudio sugiere que las respuestas relacionadas con la salud de ChatGPT son difíciles de distinguir de las proporcionadas por proveedores de salud humanos.
El estudio, en el que participaron 392 personas, presentó una mezcla de respuestas tanto de ChatGPT como de seres humanos, y encontró que los participantes identificaron correctamente las respuestas del chatbot y las del proveedor con una precisión similar.
Sin embargo, el nivel de confianza varió según la complejidad de la tarea relacionada con la salud, siendo las tareas administrativas y la atención preventiva más confiables que el diagnóstico y el consejo de tratamiento.
Datos clave:
Fuente: NYU
Respuestas de ChatGPT a las consultas de atención médica de las personas son casi indistinguibles de las proporcionadas por humanos, según revela un nuevo estudio de la Escuela de Ingeniería Tandon de NYU y la Escuela de Medicina Grossman, lo que sugiere el potencial de los chatbots como aliados efectivos en la comunicación entre proveedores de salud y pacientes.
Un equipo de investigación de NYU presentó a 392 personas mayores de 18 años diez preguntas y respuestas de pacientes, la mitad de las respuestas generadas por un proveedor de salud humano y la otra mitad por ChatGPT.
Se pidió a los participantes que identificaran la fuente de cada respuesta y calificaran su confianza en las respuestas de ChatGPT utilizando una escala de 5 puntos, desde completamente no confiable hasta completamente confiable.
El estudio encontró que las personas tienen una capacidad limitada para distinguir entre las respuestas generadas por chatbot y las generadas por humanos. En promedio, los participantes identificaron correctamente las respuestas del chatbot el 65.5% del tiempo y las respuestas del proveedor el 65.1% del tiempo, con rangos del 49.0% al 85.7% para diferentes preguntas. Los resultados se mantuvieron consistentes independientemente de las categorías demográficas de los encuestados.
El estudio encontró que los participantes confían ligeramente en las respuestas de los chatbots en general (puntuación promedio de 3.4), con menos confianza cuando la complejidad relacionada con la salud de la tarea era mayor.
Las preguntas logísticas (por ejemplo, programar citas, preguntas de seguros) obtuvieron la calificación de confianza más alta (puntuación promedio de 3.94), seguidas de la atención preventiva (por ejemplo, vacunas, exámenes de detección de cáncer, puntuación promedio de 3.52). El diagnóstico y el consejo de tratamiento tuvieron las calificaciones de confianza más bajas (puntuaciones de 2.90 y 2.89, respectivamente).
Según los investigadores, el estudio destaca la posibilidad de que los chatbots puedan ayudar en la comunicación entre pacientes y proveedores, especialmente en tareas administrativas y el manejo de enfermedades crónicas comunes.
Sin embargo, se necesita más investigación sobre el desempeño de los chatbots en roles clínicos más importantes. Los proveedores deben ser cautelosos y ejercer un juicio crítico al utilizar consejos generados por chatbots debido a las limitaciones y posibles sesgos de los modelos de inteligencia artificial.
Autor: Oded Nov Fuente: NYU Contacto: Oded Nov - NYU Imagen: La imagen está acreditada a Neuroscience News
Investigación original: Acceso cerrado. "Putting ChatGPT’s Medical Advice to the (Turing) Test: Survey Study" por Oded Nov et al. JMIR Medical Education
Resumen
Poniendo a prueba el asesoramiento médico de ChatGPT con el test (Turing): estudio de encuesta
Antecedentes: Los chatbots están siendo probados para redactar respuestas a preguntas de pacientes, pero no se ha establecido bien la capacidad de los pacientes para distinguir entre respuestas de proveedores y chatbots y la confianza de los pacientes en las funciones de los chatbots.
Objetivo: Este estudio tuvo como objetivo evaluar la viabilidad de usar ChatGPT (Chat Generative Pre-trained Transformer) u otro chatbot basado en inteligencia artificial similar para la comunicación entre pacientes y proveedores.
Métodos: Se realizó un estudio de encuesta en enero de 2023. Se extrajeron diez interacciones representativas entre pacientes y proveedores no administrativos del expediente electrónico de salud. Las preguntas de los pacientes se ingresaron en ChatGPT solicitando que el chatbot respondiera con aproximadamente la misma cantidad de palabras que la respuesta del proveedor humano. En la encuesta, cada pregunta del paciente iba seguida de una respuesta generada por el proveedor o por ChatGPT. Se informó a los participantes que 5 respuestas eran generadas por proveedores y 5 eran generadas por el chatbot. También se les preguntó, y se les incentivó financieramente, a identificar correctamente la fuente de la respuesta. También se les preguntó sobre su confianza en las funciones de los chatbots en la comunicación entre pacientes y proveedores, utilizando una escala de Likert del 1 al 5.
Resultados: Se reclutó una muestra representativa de los Estados Unidos de 430 participantes del estudio mayores de 18 años en Prolific, una plataforma de crowdsourcing para estudios académicos. En total, 426 participantes completaron la encuesta completa. Después de eliminar a los participantes que pasaron menos de 3 minutos en la encuesta, quedaron 392 encuestados. En general, el 53,3% (209/392) de los encuestados analizados eran mujeres, y la edad promedio era de 47,1 (rango de 18 a 91) años. La clasificación correcta de las respuestas varió entre el 49% (192/392) y el 85,7% (336/392) para diferentes preguntas. En promedio, las respuestas del chatbot se identificaron correctamente en el 65,5% (1284/1960) de los casos, y las respuestas del proveedor humano se identificaron correctamente en el 65,1% (1276/1960) de los casos. En promedio, las respuestas sobre la confianza de los pacientes en las funciones de los chatbots fueron débilmente positivas (puntuación media Likert de 3,4 sobre 5), con una menor confianza a medida que aumentaba la complejidad relacionada con la salud de la tarea en las preguntas.
Conclusiones: Las respuestas de ChatGPT a las preguntas de los pacientes eran débilmente distinguibles de las respuestas de los proveedores. Parece que las personas confían en el uso de chatbots para responder preguntas de salud de bajo riesgo. Es importante seguir estudiando la interacción entre pacientes y chatbots a medida que los chatbots pasan de funciones administrativas a roles más clínicos en la atención médica.