Un ensayo de clasificación de emergencia de Harvard demuestra que el diagnóstico con IA es mejor que el de los médicos reales

En los dramas médicos, desde George Clooney en "ER" hasta Noah Wyle en "ER", los médicos de urgencias han sido retratados durante mucho tiempo como héroes que salvan vidas. Pero un estudio más reciente de Harvard muestra que en situaciones de emergencia de alta presión, los sistemas de inteligencia artificial han superado a los médicos humanos en precisión diagnóstica. Los investigadores describen este resultado como un punto de inflexión tecnológico que "remodelará la medicina".

Expertos independientes creen que el estudio, publicado en la revista Science y dirigido por un equipo de la Facultad de Medicina de Harvard, marca un "avance real" en las capacidades de razonamiento clínico de la IA, más allá de simplemente aprobar exámenes o resolver preguntas de exámenes construidas artificialmente. El estudio utilizó un diseño experimental a gran escala para comparar cientos de médicos con un modelo de lenguaje grande (LLM), centrándose en evaluar las diferencias de desempeño en escenarios clave como la clasificación de emergencia y la planificación del tratamiento a largo plazo.

En uno de los experimentos principales, el equipo de investigación seleccionó a 76 pacientes reales que visitaron la sala de urgencias de un hospital de Boston. El sistema de inteligencia artificial y un equipo de dos médicos humanos recibieron exactamente los mismos registros médicos electrónicos estándar, incluidos datos de signos vitales, información demográfica y una descripción de enfermera de pocas frases del motivo de la visita. Dada esta información limitada para realizar un diagnóstico inicial, la IA dio un diagnóstico preciso o muy cercano en el 67% de los casos, mientras que los médicos humanos acertaron solo entre el 50% y el 55% de las veces.

Las investigaciones señalan que las ventajas de la IA son particularmente prominentes en escenarios de clasificación donde la información es extremadamente limitada y se requiere un juicio rápido. Cuando la IA y los médicos recibieron información clínica más detallada, la precisión diagnóstica de la IA (utilizando el modelo de inferencia o1 de OpenAI) mejoró aún más hasta el 82%, mientras que la precisión de los expertos humanos osciló entre el 70% y el 79%, aunque esta diferencia no fue estadísticamente significativa.

Además de la clasificación de emergencia, la IA también ha demostrado un rendimiento superior al de los médicos en la formulación de planes de tratamiento a largo plazo. En otro ensayo, el equipo de investigación pidió a la IA que revisara cinco casos clínicos con 46 médicos, con tareas que iban desde diseñar regímenes antibióticos hasta planificar planes de gestión a largo plazo, como procesos de cuidados al final de la vida. Los resultados mostraron que las opciones de tratamiento proporcionadas por IA obtuvieron puntuaciones significativamente más altas, con una puntuación del 89%, mientras que los médicos que dependían de fuentes tradicionales, como los motores de búsqueda, obtuvieron solo un 34%.

A pesar de ello, los investigadores subrayaron que aún no es el momento de "anunciar el despido de los médicos de urgencias". Este estudio solo comparó las capacidades de diagnóstico de la IA y los humanos al nivel de datos de registros médicos que pueden ser texteados, y no incluyó muchas señales que son cruciales en situaciones clínicas reales, como las expresiones de dolor, los estados emocionales, el lenguaje corporal e incluso información no textual de los pacientes, como las interacciones con miembros de la familia. En otras palabras, en este estudio, la IA estaba más cerca de un “médico detrás de escena” que daba una segunda opinión basada en información en papel.

"No creo que nuestros hallazgos signifiquen que la IA vaya a reemplazar a los médicos", dijo Arjun Manrai, uno de los primeros autores del estudio y director del Laboratorio de IA de la Facultad de Medicina de Harvard. "Creo que lo que significa es que estamos siendo testigos de un profundo cambio tecnológico que remodelará todo el sistema de atención médica". El autor principal Adam Rodman, médico del Centro Médico Beth Israel Deaconess en Boston, calificó los modelos de lenguaje grandes como "una de las tecnologías de mayor impacto en las últimas décadas". Predijo que en los próximos diez años la IA no sustituirá a los médicos, sino que formará un nuevo "modelo de atención tripartita" con médicos y pacientes: "médicos, pacientes y sistemas de inteligencia artificial".

El estudio también presentó un caso clínico representativo: un paciente llegó al hospital con coágulos de sangre pulmonar y empeoramiento de los síntomas. Los médicos humanos inicialmente juzgaron que el tratamiento con medicamentos anticoagulantes fallaba, lo que provocaba la progresión de la enfermedad; pero la IA notó un punto clave después de leer el historial médico: el paciente padecía lupus eritematoso, una enfermedad autoinmune que también puede causar inflamación pulmonar. Tras una inspección más exhaustiva, la inferencia de la IA resultó ser correcta.

La aplicación clínica de la IA no se queda en la etapa de laboratorio. Un gran número de médicos ya lo utilizan en la práctica. Casi uno de cada cinco médicos estadounidenses ha introducido herramientas asistidas por IA en sus procedimientos de diagnóstico, según una investigación reciente publicada por la Asociación Médica Estadounidense. En el Reino Unido, una nueva encuesta del Royal College of Physicians reveló que el 16% de los médicos utilizan dicha tecnología a diario, y otro 15% la utiliza una o más veces por semana, siendo el "apoyo a las decisiones clínicas" uno de los escenarios de uso más comunes.

Sin embargo, los médicos británicos también expresaron una gran vigilancia sobre la IA cuando fueron encuestados, especialmente su preocupación por el riesgo de diagnósticos erróneos de la IA y problemas de responsabilidad. Aunque se han invertido miles de millones de dólares en nuevas empresas de IA médica en todo el mundo, una vez que la IA falla, cómo definir las responsabilidades y quién asumirá las consecuencias sigue siendo una brecha institucional urgente que debe resolverse. “Actualmente no existe un marco formal de rendición de cuentas”, señaló Rodman, destacando que los pacientes “en última instancia quieren ser guiados, acompañados y explicados por humanos” cuando se enfrentan a decisiones de vida o muerte o planes de tratamiento complejos.

El profesor Ewen Harrison, codirector del Centro de Informática Médica de la Universidad de Edimburgo, dijo que la investigación era importante porque demostraba que "estos sistemas ya no sirven sólo para aprobar exámenes médicos o responder a preguntas de exámenes construidas artificialmente". En su opinión, la IA se está convirtiendo gradualmente en una útil "herramienta de segunda opinión" para los médicos, especialmente en escenarios en los que es necesario clasificar de manera integral diagnósticos potenciales y evitar pasar por alto causas importantes de enfermedades.

Al mismo tiempo, Wei Xing, profesor asistente de la Facultad de Matemáticas y Ciencias Físicas de la Universidad de Sheffield en el Reino Unido, también recordó que algunos resultados del estudio muestran que cuando los médicos colaboran con la IA, inconscientemente pueden confiar en las conclusiones de la IA y debilitar el pensamiento independiente. "Es probable que esta tendencia aumente aún más a medida que la IA se utilice de forma rutinaria en entornos clínicos", señaló. Xing Wei también enfatizó que el estudio no reveló completamente en qué tipos de pacientes la IA funciona peor, por ejemplo, si es más difícil diagnosticar a pacientes de edad avanzada o a pacientes que no son hablantes nativos de inglés. Estas son cuestiones que no se pueden ignorar al evaluar la seguridad.

Por lo tanto, aunque los resultados del ensayo de Harvard son alentadores, no prueban que la IA sea lo suficientemente segura como para usarse de manera rutinaria e independiente en el diagnóstico y tratamiento clínico, ni significa que el público deba recurrir a herramientas gratuitas de IA como sustituto del asesoramiento médico profesional. En el futuro previsible, es más probable que la IA se utilice como un "estetoscopio inteligente" de alto rendimiento y un "segundo cerebro" que se integrará en el sistema médico dirigido por humanos, promoviendo diagnósticos y tratamientos más precisos y eficientes, al tiempo que planteará nuevas cuestiones sobre responsabilidad, ética y confianza ante la sociedad.