Las respuestas de ChatGPT a preguntas relacionadas con la atención médica son bastante difíciles de distinguir de las respuestas dadas por personas, según un nuevo estudio publicado en JMIR Medical Education.

El estudio, realizado por investigadores de NYU en enero, tenía como objetivo evaluar la viabilidad de usar ChatGPT u otros modelos de lenguaje grandes para responder a la larga lista de preguntas que enfrentan los proveedores en el expediente médico electrónico. Concluyó que el uso de LLM, como ChatGPT, podría ser una forma efectiva de agilizar la comunicación entre los proveedores de atención médica y los pacientes.
Para realizar el estudio, el equipo de investigación extrajo preguntas de pacientes del expediente médico electrónico de NYU Langone Health. Luego, introdujeron esas preguntas en ChatGPT y pidieron al chatbot que respondiera con aproximadamente la misma cantidad de palabras que el proveedor humano cuando escribió su respuesta en el expediente médico.
A continuación, los investigadores presentaron casi 400 adultos con diez conjuntos de preguntas y respuestas de pacientes. Informaron a los participantes que cinco de estos conjuntos contenían respuestas escritas por un proveedor de atención médica humano y los otros cinco tenían respuestas escritas por ChatGPT. Se les pidió a los participantes, y se les dio incentivos financieros, para identificar correctamente si cada respuesta fue generada por un humano o por ChatGPT.
El equipo de investigación descubrió que las personas tienen una capacidad limitada para distinguir de manera precisa entre las respuestas generadas por chatbots y las generadas por humanos. En promedio, los participantes identificaron correctamente la fuente de la respuesta aproximadamente el 65% del tiempo. Estos resultados fueron consistentes independientemente de las características demográficas de los participantes del estudio.
Los autores del estudio afirmaron que esta investigación demuestra el potencial que tienen los LLM para ayudar en la comunicación entre pacientes y proveedores, específicamente en tareas administrativas y el manejo de enfermedades crónicas comunes.
Sin embargo, señalaron que se necesita investigación adicional para explorar hasta qué punto los chatbots pueden asumir responsabilidades clínicas. El equipo de investigación también enfatizó la importancia de que las organizaciones de proveedores ejerzan cautela al seleccionar consejos generados por LLM para tener en cuenta las limitaciones y posibles sesgos de estos modelos de inteligencia artificial.
Al realizar el estudio, los investigadores también preguntaron a los participantes sobre su confianza en los chatbots para responder diferentes tipos de preguntas utilizando una escala de 5 puntos que va desde "completamente no confiable" hasta "completamente confiable". Descubrieron que la confianza de las personas en los chatbots era mayor para preguntas logísticas, como las relacionadas con seguros o programación de citas, así como para preguntas sobre atención preventiva. La confianza de los participantes en las respuestas generadas por chatbots era menor para preguntas sobre diagnósticos o consejos de tratamiento.
Esta investigación de NYU no es el único estudio publicado este año que respalda el uso de LLM para responder preguntas de los pacientes.
En abril, un estudio publicado en JAMA Internal Medicine sugirió que los LLM tienen un potencial significativo para aliviar la enorme carga que tienen los médicos en sus bandejas de entrada. El estudio evaluó dos conjuntos de respuestas a preguntas de pacientes, uno escrito por médicos y otro por ChatGPT. Un panel de profesionales de la salud determinó que ChatGPT superó a los proveedores humanos porque las respuestas del modelo de IA eran más detalladas y empáticas.
Foto: Vladyslav Bobuskyi, Getty Images