¿Por qué es importante el estudio de predicción de Alzheimer utilizando machine learning a partir de notas clínicas?

El estudio es importante porque permite la detección temprana del deterioro cognitivo en adultos usando grandes volúmenes de datos administrativos, sin necesidad de evaluaciones clínicas previas. Esto facilita intervenciones terapéuticas oportunas, ralentiza el deterioro y ayuda a inscribir a pacientes en ensayos clínicos, lo que podría transformar el manejo del Alzheimer.

¿Qué datos se utilizaron en el estudio?

Se utilizó la base de datos del sistema nacional de salud de Corea, que contenía historiales clínicos de más de un millón de participantes. Para el estudio se seleccionaron 40.736 adultos mayores de 40 años y se analizaron las notas clínicas de los 4 años previos al diagnóstico de deterioro cognitivo, extrayendo cerca de 4.894 características únicas.

¿Cómo se procesaron las notas clínicas en el estudio?

Las notas clínicas se procesaron utilizando técnicas de procesamiento del lenguaje natural para dividirlas en secciones y se identificaron palabras clave seleccionadas por expertos. Tres anotadores etiquetaron las secciones para determinar la presencia de deterioro cognitivo, lo que permitió crear un conjunto de datos etiquetado de aproximadamente 4.950 secciones para entrenar y validar los modelos predictivos.

¿Qué técnicas de machine learning se utilizaron en el estudio?

Se implementaron varias técnicas, incluyendo regresión logística, random forest, support vector machine y XGBoost. Además, se desarrolló un modelo basado en deep learning con una estructura jerárquica de atención, que demostró ser el mejor predictor en comparación con los modelos base, según las métricas AUROC y AUPRC.

¿Cuáles son las principales conclusiones del estudio?

La principal conclusión es que es posible predecir el riesgo de desarrollar deterioro cognitivo, y potencialmente Alzheimer, utilizando únicamente datos administrativos extraídos de notas clínicas. El modelo de deep learning demostró un rendimiento excelente, con valores AUROC y AUPRC superiores a 0.9, validando el uso de este enfoque para la detección temprana.

¿Cómo puede NeuronUP aportar en estudios como este?

NeuronUP aporta experiencia en el manejo de grandes conjuntos de datos y en la implementación de técnicas avanzadas de machine learning. Su equipo está capacitado para diseñar estudios data-driven, formular preguntas basadas en la literatura científica y crear modelos robustos, lo que puede ayudar a optimizar la detección temprana del deterioro cognitivo utilizando registros médicos electrónicos.

Detección temprana del deterioro cognitivo a partir de un modelo de aprendizaje profundo

Antonio Javier Sutil Jiménez habla en este artículo acerca de los datos aportados en el estudio «Modelo de aprendizaje profundo para la detección temprana del deterioro cognitivo a partir de notas clínicas en historias clínicas electrónicas».

¿Por qué es importante este estudio de modelo de aprendizaje a partir de notas clínicas?

Este estudio aborda la detección temprana del deterioro cognitivo en adultos, lo cual es fundamental para poder realizar intervenciones terapéuticas exitosas, ralentizar el deterioro, prevenir el desarrollo de enfermedades o facilitar la inscripción de participantes en ensayos clínicos.

Enfermedad de Alzheimer

La enfermedad de alzheimer es un tipo de demencia que representa un gran problema a nivel mundial. Esta enfermedad ha sido diagnosticada en casi 6 millones de personas en Estados Unidos, y su prevalencia aumenta con la edad, por lo que se espera que el envejecimiento de la población también incremente su incidencia a lo largo de los próximos años.

Sin embargo, más allá de la enfermedad de alzheimer, el deterioro cognitivo leve es un problema de gran relevancia, que en muchos casos se asocia a un posterior desarrollo de demencia.

Deterioro cognitivo subjetivo

De igual forma, recientemente se ha creado la categoría de deterioro cognitivo subjetivo. Este término hace referencia a la percepción del individuo de estar experimentando un deterioro de sus capacidades cognitivas en comparación con su estado previo.

Aunque esta etiqueta no es una enfermedad en sí misma, se ha identificado que las personas con esta condición podrían estar en una etapa temprana de deterioro cognitivo.

Detección del deterioro cognitivo

Aunque se están realizando grandes esfuerzos por mejorar los tratamientos para estos pacientes, la detección del deterioro cognitivo sigue siendo un desafío, y la mejora de las herramientas de detección es necesaria para que los tratamientos posteriores sean efectivos.

Herramientas en atención primaria

Dado que el número de profesionales especializados para atender a la población en riesgo es limitado, una posible solución podría ser dotar de herramientas a los médicos de atención primaria. Estos médicos no son especialistas en demencia, pero tienen contacto directo con esta población, por lo que proveerles de herramientas para el diagnóstico se plantea como una solución viable.

Registros médicos electrónicos

El uso de los registros médicos electrónicos se propone como una alternativa adecuada para la elaboración de dichas herramientas, ya que estos recopilan el historial de visitas de los pacientes dentro de un sistema de atención médica.

Sin embargo, es importante destacar la dificultad de identificar los signos de deterioro cognitivo no asociados a la edad, que en muchas ocasiones quedan documentados en evaluaciones cognitivas y en las preocupaciones de las pacientes registradas por los profesionales sanitarios. Aunque se han realizado estudios con la información clínica de los pacientes, pocas veces se ha profundizado en el uso de las notas clínicas de los registros médicos para este fin.

Notas clínicas como recurso informativo

En este estudio se propone el uso de las notas clínicas como un recurso informativo que podría capturar información que no es considerada en la mayoría de los estudios. El hecho de analizar las notas clínicas de forma manual resultaría muy costoso por lo que el objetivo del estudio fue desarrollar un modelo de detección automático basado en deep learning.

Por lo tanto, el enfoque de este estudio es original y novedoso haciendo uso de las notas clínicas.

Las notas clínicas son muy importantes para los historiales de salud en el ámbito clínico. Sin embargo, su uso desde el ámbito científico ha sido limitado provocando que su aplicación para la detección temprana del deterioro cognitivo pueda ser de gran interés.

¿Qué se ha hecho?

Base de datos

Para la realización de este estudio, se tomaron los datos de una empresa de salud privada, filtrando a los pacientes por edad (debían ser mayores de 50 años) y por el diagnóstico de deterioro cognitivo leve. En concreto, se analizaron las notas clínicas de los 4 años previos al diagnóstico.

La definición del deterioro cognitivo se basó en la mención de síntomas, diagnóstico, evaluaciones cognitivas y tratamientos. Cuando las notas indicaban progreso, episodios transitorios o reversibles, se consideraron negativos para el deterioro cognitivo.

Procesamiento de las notas clínicas y desarrollo de la base de datos

Primeramente, debido a la longitud de las notas clínicas, se utilizó un procesador de lenguaje natural para dividirlas en secciones. Esta división permitió identificar si cada sección indicaba deterioro cognitivo o no.

A continuación, se identificaron palabras clave seleccionadas por expertos, entrenados para identificar secciones que contenían indicios de deterioro cognitivo. Tres anotadores etiquetaron las secciones, y los conflictos se resolvieron mediante discusiones con expertos en la materia, logrando un buen nivel de acuerdo entre los anotadores.

Además, se creó un conjunto de datos etiquetado con 4.950 secciones para entrenar y probar varios algoritmos de aprendizaje automático. Finalmente, se crearon dos bases de datos que serían utilizadas para el desarrollo y validación del modelo.

Conjuntos de datos

El primer conjunto de datos, empleado para el desarrollo del modelo, incluía únicamente secciones con palabras clave seleccionadas. Este conjunto de datos contenía 4.950 secciones anotadas, listas para el desarrollo de los modelos de aprendizaje automático.

El segundo conjunto de datos consistió en 2.000 secciones seleccionadas al azar de todas las notas, excluyendo las usadas en el primer conjunto. Este segundo conjunto se utilizó para comprobar la capacidad de generalización del modelo en secciones de notas sin aplicar un filtro basado en palabras clave.

Desarrollo del modelo y validación

Para desarrollar el modelo, utilizaron una estructura jerárquica de atención basada en deep learning que había sido desarrollada en un trabajo previo, además de cuatro algoritmos base de aprendizaje automático: regresión logística, random forest, support vector machine y XGBoost.

El modelo previamente desarrollado incorporaba una red neuronal convolucional adaptada al contexto, lo que permitía manejar variaciones de palabras e interpretar la predicción a través de capas de atención. Para obtener más información del modelo, se recomienda consultar el artículo en cuestión y sus tablas suplementarias.

Interpretación de la predicción del modelo

Para interpretar la predicción del modelo, se identificaron las palabras con mayor peso en las capas de atención utilizadas en la predicción. Las palabras con un peso relevante, es decir, de al menos 2 desviaciones estándar por encima de la media, fueron consideradas de alta atención y se compararon con las palabras clave originales seleccionadas.

Por otra parte, para los modelos base, las secciones fueron representadas por la frecuencia de aparición de términos, y los algoritmos fueron entrenados y probados mediante validación cruzada. Posteriormente, se compararon los resultados del modelo desarrollado por el grupo de investigación con los 4 modelos base mencionados.

Comparación de métricas

Las dos medidas usadas para la comparación de las métricas fueron AUROC (área bajo la curva de la característica operativa del receptor) y AUPRC (área bajo la curva de precisión y recuperación).

AUROC es un método de análisis habitual en estos modelos, ya que permite evaluar los diferentes umbrales entre sensibilidad y especificidad. AUPRC es otra métrica importante que ofrece información complementaria para datos no balanceados, cuando el porcentaje de casos positivos es bajo.

¿Cuáles son las principales conclusiones de este estudio de modelo de aprendizaje a partir de notas clínicas?

La conclusión principal de este estudio es que es posible realizar predicciones diagnósticas de deterioro cognitivo utilizando un modelo basado en las notas clínicas. Estos pacientes podrían estar en las primeras etapas del deterioro cognitivo, lo que permitiría identificar señales tempranas en los registros electrónicos de salud.

El modelo desarrollado para este propósito fue el mejor predictor para detectar pacientes que desarrollarán deterioro cognitivo, sin depender de los datos estructurados. Aunque el modelo de aprendizaje profundo fue el mejor, el modelo XGBoost también mostró buenas predicciones, y se plantea como una alternativa más sencilla en caso de no contar con la tecnología necesaria.

Métricas AUROC y AUPRC

Para comprobar estos resultados, se pueden observar las puntuaciones obtenidas en las métricas AUROC y AUPRC en los conjuntos de datos 1 y 2 (ver tablas 1 y 2, respectivamente). Es especialmente notable que el modelo basado en deep learning es el mejor predictor en ambas métricas.

En el caso de AUROC, todos los valores son superiores a 0.9, siendo siempre el modelo de deep learning el que mejor predice. En cuanto a AUPRC, esto es aún más evidente, ya que este modelo es el único que se mantiene por encima del valor 0.9.

Las diferencias entre estas métricas refuerzan la consistencia de los resultados, puesto que, mientras AUROC muestra la relación entre la tasa de verdaderos positivos y falsos positivos, AUPRC refleja la relación entre precisión y sensibilidad.

En muestras desbalanceadas, la métrica AUROC puede ser menos conservadora con los falsos positivos, por lo que la información complementaria de AUPRC permite confirmar el buen rendimiento de este modelo.

Modelo	AUROC	AUPRC
Regresión logística	0.936	0.880
Random Forest	0.950	0.889
Support Vector Machine	0.939	0.883
XGBoost	0.953	0.882
Deep Learning	0.971	0.933

Tabla 1. Comparación de los modelos para el conjunto de datos con 4950 secciones.

Modelo	AUROC	AUPRC
Regresión logística	0.969	0.762
Random Forest	0.985	0.830
Support Vector Machine	0.954	0.723
XGBoost	0.988	0.898
Deep Learning	0.997	0.929

Tabla 2. Comparación de los modelos para el conjunto de datos con 2000 secciones.

Rendimiento del modelo

Otro punto que destaca este estudio es que la longitud de las notas podría afectar al rendimiento del modelo; sin embargo, manteniendo suficiente contenido, se demuestra que la clasificación por secciones puede ser factible.

Además, este tipo de modelos podría aplicarse a otras patologías, aunque es importante considerar que la identificación de información ambigua o compleja puede resultar difícil.

¿Dónde NeuronUP podría aportar en un estudio como este?

NeuronUP podría aportar de diversas formas a un estudio como este, ya que tiene una amplia trayectoria trabajando con grandes cantidades de datos.

Como se observa en este estudio, el manejo de grandes volúmenes de datos es uno de los principales desafíos al trabajar con notas clínicas. Por lo tanto, el equipo de NeuronUP, que cuenta con especialistas tanto en el ámbito clínico como en el análisis de datos, podría realizar valiosas aportaciones en el procesamiento de la información, ya sea mediante el uso de palabras clave o sin ellas.

Por otro lado, este estudio destaca por la comparación de cinco modelos diferentes, lo que otorga robustez a los resultados obtenidos para su modelo. La experiencia del equipo de NeuronUP también podría ser útil en el diseño de un modelo específico para este propósito, o en la creación de modelos robustos para compararlos con el modelo desarrollado.

Li Zhou. Profesora de medicina en la Facultad de Medicina de Harvard desde hace más de diez años, y es la investigadora principal en el Brigham and Women’s Hospital. Posee un doctorado en Informática Biomédica en la Universidad de Columbia, y su investigación se ha centrado en el procesamiento del lenguaje natural, la gestión del conocimiento y el apoyo a la toma de decisiones clínicas. Además, ha sido la investigadora principal en numerosos proyectos de investigación financiados por AHRQ, NIH y CRICO/RMF.

Bibliografía

Wang L, Laurentiev J, Yang J, et al. Development and Validation of a Deep Learning Model for Earlier Detection of Cognitive Decline From Clinical Notes in Electronic Health Records. JAMA Netw Open. 2021;4(11):e2135174. doi:10.1001/jamanetworkopen.2021.35174

Si te ha gustado esta entrada del blog sobre el modelo de aprendizaje profundo para la detección temprana del deterioro cognitivo a partir de notas clínicas en historias clínicas electrónicas, seguramente te interesen estos artículos de NeuronUP: