No aprobó el examen de medicina
ChatGPT puede ser bueno para aconsejarte en tus entrenamientos, pero todavía le falta mucho para reemplazar a un médico. Un experimento reciente encontró que el popular chatbot de inteligencia artificial comete errores médicos con mayor frecuencia de lo que acierta.
«ChatGPT en su forma actual no es preciso como herramienta de diagnóstico», escribieron los investigadores detrás del estudio, publicado hoy en la revista PLOS ONE. «ChatGPT no necesariamente proporciona exactitud factual, a pesar de la gran cantidad de información con la que fue entrenado.»
En febrero de 2023, ChatGPT apenas logró aprobar el Examen de Licencia Médica de los Estados Unidos sin insumos especializados adicionales de entrenadores humanos. A pesar de que el programa no se acercó a sobresalir en el examen, los investigadores detrás del experimento calificaron el resultado como un «hito notable» para la IA.
Sin embargo, los científicos detrás del nuevo estudio notaron que, aunque aprobar el examen de licencia demostró la capacidad de ChatGPT para responder preguntas médicas concisas, «la calidad de sus respuestas a casos médicos complejos sigue sin estar clara.»
Para determinar qué tan bien funciona ChatGPT 3.5 en esos casos más complicados, los investigadores presentaron al programa 150 casos diseñados para desafiar las habilidades diagnósticas de los profesionales de la salud. La información proporcionada a ChatGPT incluía antecedentes del paciente, hallazgos del examen físico y algunos resultados de laboratorio o imágenes.
Luego se le pidió a ChatGPT que hiciera un diagnóstico o elaborara un plan de tratamiento adecuado. Los investigadores calificaron las respuestas del bot en función de si dio la respuesta correcta. También evaluaron a ChatGPT en cuanto a cómo mostró su trabajo, calificando la claridad del razonamiento detrás de un diagnóstico o tratamiento prescrito y la relevancia de la información médica citada.
Aunque ChatGPT ha sido entrenado con cientos de terabytes de datos de Internet, solo acertó el diagnóstico correcto el 49% de las veces. Obtuvo una puntuación un poco mejor en la relevancia de sus explicaciones, ofreciendo explicaciones completas y relevantes el 52% de las veces.
Los investigadores observaron que, aunque la IA era bastante buena eliminando respuestas incorrectas, eso no es lo mismo que tomar la decisión correcta en un entorno clínico. «La precisión y la sensibilidad son cruciales para una herramienta de diagnóstico porque los diagnósticos perdidos pueden llevar a consecuencias significativas para los pacientes, como la falta de tratamientos necesarios o pruebas diagnósticas adicionales, resultando en peores resultados de salud», escribieron.
En general, se describió al chatbot como teniendo una «capacidad discriminativa moderada entre diagnósticos correctos e incorrectos» y un desempeño «mediocre» en general en la prueba. Aunque no se debe confiar en ChatGPT para diagnosticar a los pacientes con precisión, los investigadores dijeron que aún puede tener usos relevantes para los médicos en formación gracias a su acceso a una gran cantidad de datos médicos.
«En conjunto con métodos de enseñanza tradicionales, ChatGPT puede ayudar a los estudiantes a cerrar brechas de conocimiento y simplificar conceptos complejos al entregar respuestas instantáneas y personalizadas a preguntas clínicas», escribieron.
Dicho esto, la IA podría superar a los médicos humanos en un área: Un estudio de abril de 2023 encontró que ChatGPT fue capaz de escribir correos electrónicos más empáticos a los pacientes que los médicos reales.