¿Por qué es crucial el diagnóstico diferencial de demencia con IA?

La población envejecida busca diagnósticos tempranos y precisos; la IA facilita la diferenciación de tipos de demencia basándose en grandes volúmenes de datos heterogéneos, mejorando la precisión y reduciendo errores diagnósticos.

¿Qué limitaciones presenta el gold standard actual en demencias?

El gold standard actual combina evaluaciones neuropsicológicas y biomarcadores sin lograr fiabilidad absoluta, pues no existe una prueba única de alta precisión para diferenciar todas las etiologías de demencia.

¿Cómo utiliza la IA datos multimodales en este estudio?

El estudio integra datos sociodemográficos, neurológicos, físicos, historial médico y resonancias magnéticas en un modelo transformer con aprendizaje autosupervisado para generar vectores de longitud fija y realizar predicciones robustas.

¿Cuáles son las métricas de rendimiento del modelo?

El modelo alcanzó una media de AUROC de 0.94 en la clasificación sano vs. deterioro y una AUROC micro de 0.96 para diagnósticos de distintas demencias, con AUPR superiores a 0.70 en las clases principales.

¿Cómo mejora la IA los diagnósticos clínicos?

La asistencia del modelo aumentó la detección de deterioro cognitivo leve hasta un 12% y mejoró diagnósticos de Alzheimer, frontotemporal y priones en neurólogos y radiólogos, optimizando la precisión clínica.

¿Cómo puede contribuir NeuronUP a este tipo de estudios?

NeuronUP puede aportar infraestructura de datos neurocognitivos, replicar y optimizar estudios multimodales, y analizar perfiles cognitivos detallados para detección temprana mediante su banco de datos neuropsicológicos.

Diagnóstico de demencia basado en IA

El investigador Antonio Javier Sutil Jiménez expone en este artículo los datos más relevantes sobre el estudio «Diagnóstico diferencial de etiologías de demencia basado en IA sobre datos multimodales».

¿Por qué es importante el estudio de demencia e inteligencia artificial (IA)?

La población mundial está envejeciendo y con ello, nos enfrentamos a múltiples riesgos de salud asociados a la edad. Uno de estos riesgos son las demencias, cuyo diagnóstico incrementa cerca de los 10 millones de casos nuevos cada año. Las demencias son un conjunto de enfermedades que se caracterizan por el deterioro de las funciones cognitivas hasta el punto de dificultar o imposibilitar actividades de la vida diaria de forma independiente. Entre ellas destaca la enfermedad de Alzheimer, pero existen muchas otras como la demencia vascular, la demencia por cuerpos de Lewy o la demencia frontotemporal.

¿Cómo intervenir para reducir problemas asociados a las demencias?

La respuesta se relacionaría con la obtención de diagnósticos tempranos y precisos que permitan realizar terapias efectivas y específicamente dirigidas a cada enfermedad. En 2017, la Organización Mundial de la Salud (OMS) ya declaró la necesidad de mejorar los diagnósticos para responder al incremento de casos de demencia a nivel mundial. Sin embargo, los diferentes tipos de demencia son a veces difícilmente diferenciables en etapas tempranas ya que los síntomas asociados a cada demencia son complejos. A esto se añade que a veces las diferentes demencias pueden coexistir lo que conlleva que haya un gran número de errores diagnósticos.

Gold Standard

Estos diagnósticos se han basado principalmente en evaluaciones neuropsicológicas. Sin embargo, estos diagnósticos basados en tests cognitivos y comportamentales se han tratado de ligar con tests que evalúen muestras biológicas como pueden ser escáneres de resonancia, muestras de sangre o líquido cefalorraquídeo, entre otros. A pesar de la realización de grandes esfuerzos, aún se carece de una prueba diagnóstica de tipo “Gold Standard”. Este es el nombre que denomina una prueba de diagnóstico que posea una alta fiabilidad a la hora de diagnosticar una enfermedad concreta. Este Gold Standard se ha buscado principalmente a través de los datos biológicos sin éxito hasta el momento.

Solución basada en inteligencia artificial (IA)

Para solventar esta situación, un grupo de investigadores de la Universidad de Boston junto a investigadores de todos los Estados Unidos han propuesto una solución basada en inteligencia artificial que permitiría trabajar con un gran conjunto de datos de carácter heterogéneo. Estos datos son heterogéneos porque se basa en imitar el mundo real; es decir, utilizar las mismas herramientas que un profesional clínico utilizaría para dar una solución al problema de diagnóstico y prevención que existe respecto a las demencias. Los múltiples tipos de datos que abordaron son: sociodemográficos, neurológicos, físicos, historia médica y escáneres de resonancia.

¿Qué se ha hecho?

Para poder aplicar un modelo basado en inteligencia artificial se necesitaba una cantidad masiva de datos por lo que los investigadores acudieron a nueve conjuntos de datos independientes reuniendo más de 51.000 pacientes con diferentes tipos de demencia.

Pacientes con diferentes tipos de demencia

La inclusión de un gran abanico de demencias y con causas múltiples fue un paso fundamental para poder obtener caracterización rica y variada que pueda ser representativa de la realidad. Por ello se incluyeron pacientes que tenían demencia debido a muchas causas diferentes como alzheimer, accidente cerebro vasculares, con degeneración frontotemporal, degeneración corticobasal, debida a infecciones, abuso de drogas, etc.

Problema de pérdida de datos

Sin embargo, esta aproximación basada en una cantidad masiva de datos también hace probable que haya datos perdidos. Este es el caso contrario a entornos muy controlados y con un número más reducido de pacientes, en los que se minimiza la pérdida de datos. En este caso, el enfoque precisa de grandes conjuntos de datos muy heterogéneos que permitan aprender al modelo y ser lo más realista posible. Para resolver el problema relacionado con la pérdida de datos, los investigadores aplicaron técnicas que proporcionarán la máxima robustez durante las primeras etapas. La implantación de estos métodos y estrategias robustas evita que el entrenamiento de la inteligencia artificial esté sesgado y por tanto las futuras predicciones también. Además de ello se siguieron procedimientos estandarizados de inclusión y exclusión que aseguraron la consistencia y credibilidad de los resultados.

Modelo de tipo «transformer»

En este punto, también se plantea un importante reto que es la creación de un modelo que permita aglomerar múltiples tipos de datos y parámetros de diferente naturaleza, lo que se denomina una arquitectura de tipo “transformer” En este tipo de modelo se toman todas las características diferentes incluidas y se transforman en en lo que se denomina un “vector de longitud fija” siguiendo una estrategia específica que permite crear una primera capa del modelo sobre la que se construirá el resto decodificando esto en una serie de predicciones.

Para comprenderlo mejor, podemos pensar en este modelo como en una receta de cocina solo que en lugar de diferentes pasos como tenemos en la receta, el modelo va a tener diferentes capas. Pero de la misma forma que para poder tener un buen plato tras cocinar, necesitamos buenos ingredientes que vayan a combinar de forma adecuada. Los investigadores querían un buen sistema de clasificación de los pacientes y necesitaban que sus ingredientes; es decir, los datos de los que partían fueran buenos y pudieran combinarse adecuadamente. En nuestro símil con este modelo de inteligencia artificial sería transformar los diferentes datos que tenemos en un formato común (vector de longitud fija). Debido a esto el modelo creado va a ser muy robusto ante la pérdida o incompletitud de datos y va a poder realizar predicciones fiables.

Aprendizaje autosupervisado

En concreto ellos utilizan un tipo de modelo denominado de aprendizaje autosupervisado. En este enfoque de aprendizaje automático el modelo aprende a partir de datos sin la necesidad de etiquetas explícitas. A diferencia del aprendizaje supervisado, que requiere un conjunto de datos con etiquetas, el aprendizaje autosupervisado se basa en encontrar estructuras y patrones en los datos sin la intervención humana directa para etiquetarlos.

Fase de entrenamiento, validación y comparación con expertos

Lo que vino a continuación en el desarrollo del modelo fue la fase de entrenamiento, validación y comparación con expertos. Los procesos de entrenamiento y validación son habituales en este tipo de estudio.

El entrenamiento consistió en alimentar al modelo utilizando datos de las diferentes cohortes, integrando todas las modalidades para aprender patrones asociados con diferentes tipos de demencia. Posteriormente al entrenamiento del modelo se realizó la validación que es la utilización datos no vistos previamente, para asegurar que el modelo puede generalizar sus predicciones a datos que desconoce.

Por último y de forma novedosa, los investigadores probaron los diagnósticos realizados por el modelo con médicos especializados en el diagnóstico de demencias. Para ello, invitaron a un grupo de 12 neurólogos y 7 neurorradiólogos a participar en tareas de diagnóstico de un subconjunto de 100 casos con diferentes tipos de demencia. Se les dieron los datos con los que se contaba para cada uno de estos 100 casos y se les pidió que proporcionaran sus impresiones diagnósticas, así como una puntuación de confianza que oscilaba entre 0 y 100 para el diagnóstico de cada una de las 13 etiquetas posibles. En este punto se quería saber si los juicios clínicos podrían mejorarse utilizando el modelo creado.

¿Cuáles son las principales conclusiones de este estudio de demencia e inteligencia artificial (IA)?

Los resultados principales se pueden dividir en tres partes: clasificación sanos vs deterioro, clasificación de las patologías y la mejora del criterio clínico usando el modelo.

El estudio evaluó el rendimiento de un modelo de inteligencia artificial (IA) para clasificar individuos en tres categorías cognitivas:

sanos o cognitivamente normales,
deterioro cognitivo leve
y demencia.

Las métricas que se usaron para evaluar el rendimiento del modelo fueron curvas ROC y PR. Los resultados obtenidos pueden observarse en la siguiente (tabla 1).

Las métricas obtenidas para los modelos ROC reflejan una alta capacidad del modelo para diferenciar las tres clases mencionadas, ya que estas métricas se evalúan de 0 a 1, siendo un valor próximo a uno un indicativo de una excelente clasificación.
Para las métricas AUAP los valores siguen indicando un buen rendimiento del modelo, siendo preciso considerar cada clase.

	AUROC	AUAP
Micro	0.94	0.90
Macro	0.93	0.84
Weight	0.94	0.87

Tabla 1. Rendimiento del modelo para la clasificación sano vs. deterioro.

El segundo resultado del estudio se relacionó con la capacidad del modelo para diagnosticar diez diferentes tipos de demencia, mostrando resultados muy significativos en cuanto a su precisión diagnóstica.

Los resultados de las métricas AUROC nuevamente muestran una gran eficacia del modelo, siendo este capaz de distinguir en la mayoría de las ocasiones entre los tipos de demencia.
Por otra parte, los modelos AUPR siguen mostrando que el modelo tiene un buen rendimiento, aunque no excelente (ver tabla 2), lo que indicaría que el modelo es más preciso en algunas enfermedades que en otras.

	AUROC	AP
Micro	0.96	0.70
Macro	0.90	0.36
Weight	0.94	0.73

Tabla 2. Media del rendimiento del modelo para clasificar demencias.

Por último, respecto a la evaluación clínica asistida por IA, los resultados indican que podría aumentar la precisión diagnóstica comparada a la que realizaría un profesional clínico por sí solo. Esto es visible por la mejora significativa de la clasificación de los tipos de demencias. Por ejemplo:

Los neurólogos mejoraron:

un 12% en la detección del deterioro cognitivo leve,
un 15% en la del alzheimer,
un 26 % para la demencia fronto-temporal siguiendo los valores AUROC.
especialmente relevante fue la mejora para la enfermedad por priones que mejoró un 73%.

Los radiólogos:

para la demencia tipo alzheimer mejoraron un 9%
un 6% para demencia fronto-temporal,
destacable también la mejora para la enfermedad por priones con un 68%.

Como conclusión, podemos extraer que futuros modelos basados en inteligencia artificial podrían ser de gran ayuda para la diferenciación diagnóstica cuando esta se basa en la naturaleza multifactorial de los diferentes tipos de demencia. Esto podría no solo mejorar el diagnóstico sino también facilitar la personalización de tratamientos e intervenciones en estados tempranos de la enfermedad.

¿Dónde NeuronUP podría aportar a un estudio como este?

Desde NeuronUP se puede aportar de muy diversas formas a un estudio como este.

Desde NeuronUP se puede contribuir en la implementación de estructuras y tecnologías que permitirían replicar o reproducir un estudio de estas características dado que los datasets usados son de libre uso.
Se podría replicar el estudio o reproducir utilizando un procedimiento diferente que fueran más preciso o menos costoso.
Además, se podrían aplicar técnicas y modelos que permitan ser más preciso y diferenciar qué tipos de datos aportan más al modelo o si se pueden obtener buenas métricas de clasificación que solo un tipo de datos. Un ejemplo de esto sería utilizando datos neuropsicológicos y sociodemográficos para tratar de obtener resultados similares.
Por otra parte, NeuronUP cuenta con un gran banco de datos de carácter neurocognitivo por lo que se podría tratar de realizar clasificaciones similares que afinaran en qué aspectos de carácter neurocognitivos podrían facilitar una detección temprana y la predicción del deterioro. Esto es especialmente relevante dado que las demencias siguen teniendo un carácter neuropsicológico y de afectación conductual muy relevante. En los últimos años, se han realizado grandes progresos en la búsqueda de biomarcadores, pero la calidad de vida del paciente sigue siendo primordial y la mayor preocupación para él y sus seres queridos. Por lo que una mayor precisión en este apartado o la elaboración de un perfil cognitivo en base a tests cognitivos podría ser de gran utilidad.
Continuando con el apartado neurocognitivo, ya que este no está ampliamente abordado en el artículo se podrían hacer uso de las grandes bases de datos con las que cuenta NeuronUP para reproducir el estudio con una cohorte nueva de pacientes. Además, el tipo de datos neuropsicológicos que se usan en el estudio no es descrito, puede haber diferentes dominios cognitivos que sean más relevantes.

Investigador principal: El Dr. Vijaya B. Kolachalama es profesor asociado de la Universidad de Boston e investigador principal del Kolachalama Lab en esta misma universidad. Su trabajo está dirigido principalmente a la aplicación de inteligencia artificial a problemas médicos. Siendo su misión la de crear herramientas que ayuden a los neurólogos en escenarios reales, principalmente en enfermedades neurodegenerativas.

Bibliografía

Xue, C., Kowshik, S.S., Lteif, D. et al. «Diagnóstico diferencial de etiologías de demencia basado en IA sobre datos multimodales». Nat Med (2024). https://doi.org/10.1038/s41591-024-03118-z

Si te ha gustado esta entrada del blog sobre el diagnóstico diferencial de etiologías de demencia basado en IA sobre datos multimodales, seguramente te interesen estos artículos de NeuronUP:

¿Por qué es importante el estudio de demencia e inteligencia artificial (IA)?