Antonio Javier Sutil Jiménez habla en este artículo acerca de los datos aportados en el estudio «Modelo de aprendizaje profundo para la detección temprana del deterioro cognitivo a partir de notas clínicas en historias clínicas electrónicas».
¿Por qué es importante este estudio de modelo de aprendizaje a partir de notas clínicas?
Este estudio aborda la detección temprana del deterioro cognitivo en adultos, lo cual es fundamental para poder realizar intervenciones terapéuticas exitosas, ralentizar el deterioro, prevenir el desarrollo de enfermedades o facilitar la inscripción de participantes en ensayos clínicos.
Enfermedad de Alzheimer
La enfermedad de alzheimer es un tipo de demencia que representa un gran problema a nivel mundial. Esta enfermedad ha sido diagnosticada en casi 6 millones de personas en Estados Unidos, y su prevalencia aumenta con la edad, por lo que se espera que el envejecimiento de la población también incremente su incidencia a lo largo de los próximos años.
Sin embargo, más allá de la enfermedad de alzheimer, el deterioro cognitivo leve es un problema de gran relevancia, que en muchos casos se asocia a un posterior desarrollo de demencia.
Deterioro cognitivo subjetivo
De igual forma, recientemente se ha creado la categoría de deterioro cognitivo subjetivo. Este término hace referencia a la percepción del individuo de estar experimentando un deterioro de sus capacidades cognitivas en comparación con su estado previo.
Aunque esta etiqueta no es una enfermedad en sí misma, se ha identificado que las personas con esta condición podrían estar en una etapa temprana de deterioro cognitivo.
Detección del deterioro cognitivo
Aunque se están realizando grandes esfuerzos por mejorar los tratamientos para estos pacientes, la detección del deterioro cognitivo sigue siendo un desafío, y la mejora de las herramientas de detección es necesaria para que los tratamientos posteriores sean efectivos.
Herramientas en atención primaria
Dado que el número de profesionales especializados para atender a la población en riesgo es limitado, una posible solución podría ser dotar de herramientas a los médicos de atención primaria. Estos médicos no son especialistas en demencia, pero tienen contacto directo con esta población, por lo que proveerles de herramientas para el diagnóstico se plantea como una solución viable.
Registros médicos electrónicos
El uso de los registros médicos electrónicos se propone como una alternativa adecuada para la elaboración de dichas herramientas, ya que estos recopilan el historial de visitas de los pacientes dentro de un sistema de atención médica.
Sin embargo, es importante destacar la dificultad de identificar los signos de deterioro cognitivo no asociados a la edad, que en muchas ocasiones quedan documentados en evaluaciones cognitivas y en las preocupaciones de las pacientes registradas por los profesionales sanitarios. Aunque se han realizado estudios con la información clínica de los pacientes, pocas veces se ha profundizado en el uso de las notas clínicas de los registros médicos para este fin.
Notas clínicas como recurso informativo
En este estudio se propone el uso de las notas clínicas como un recurso informativo que podría capturar información que no es considerada en la mayoría de los estudios. El hecho de analizar las notas clínicas de forma manual resultaría muy costoso por lo que el objetivo del estudio fue desarrollar un modelo de detección automático basado en deep learning.
Por lo tanto, el enfoque de este estudio es original y novedoso haciendo uso de las notas clínicas.
Las notas clínicas son muy importantes para los historiales de salud en el ámbito clínico. Sin embargo, su uso desde el ámbito científico ha sido limitado provocando que su aplicación para la detección temprana del deterioro cognitivo pueda ser de gran interés.
Suscríbete
a nuestra
Newsletter
¿Qué se ha hecho?
Base de datos
Para la realización de este estudio, se tomaron los datos de una empresa de salud privada, filtrando a los pacientes por edad (debían ser mayores de 50 años) y por el diagnóstico de deterioro cognitivo leve. En concreto, se analizaron las notas clínicas de los 4 años previos al diagnóstico.
La definición del deterioro cognitivo se basó en la mención de síntomas, diagnóstico, evaluaciones cognitivas y tratamientos. Cuando las notas indicaban progreso, episodios transitorios o reversibles, se consideraron negativos para el deterioro cognitivo.
Procesamiento de las notas clínicas y desarrollo de la base de datos
Primeramente, debido a la longitud de las notas clínicas, se utilizó un procesador de lenguaje natural para dividirlas en secciones. Esta división permitió identificar si cada sección indicaba deterioro cognitivo o no.
A continuación, se identificaron palabras clave seleccionadas por expertos, entrenados para identificar secciones que contenían indicios de deterioro cognitivo. Tres anotadores etiquetaron las secciones, y los conflictos se resolvieron mediante discusiones con expertos en la materia, logrando un buen nivel de acuerdo entre los anotadores.
Además, se creó un conjunto de datos etiquetado con 4.950 secciones para entrenar y probar varios algoritmos de aprendizaje automático. Finalmente, se crearon dos bases de datos que serían utilizadas para el desarrollo y validación del modelo.
Conjuntos de datos
El primer conjunto de datos, empleado para el desarrollo del modelo, incluía únicamente secciones con palabras clave seleccionadas. Este conjunto de datos contenía 4.950 secciones anotadas, listas para el desarrollo de los modelos de aprendizaje automático.
El segundo conjunto de datos consistió en 2.000 secciones seleccionadas al azar de todas las notas, excluyendo las usadas en el primer conjunto. Este segundo conjunto se utilizó para comprobar la capacidad de generalización del modelo en secciones de notas sin aplicar un filtro basado en palabras clave.
Desarrollo del modelo y validación
Para desarrollar el modelo, utilizaron una estructura jerárquica de atención basada en deep learning que había sido desarrollada en un trabajo previo, además de cuatro algoritmos base de aprendizaje automático: regresión logística, random forest, support vector machine y XGBoost.
El modelo previamente desarrollado incorporaba una red neuronal convolucional adaptada al contexto, lo que permitía manejar variaciones de palabras e interpretar la predicción a través de capas de atención. Para obtener más información del modelo, se recomienda consultar el artículo en cuestión y sus tablas suplementarias.
Interpretación de la predicción del modelo
Para interpretar la predicción del modelo, se identificaron las palabras con mayor peso en las capas de atención utilizadas en la predicción. Las palabras con un peso relevante, es decir, de al menos 2 desviaciones estándar por encima de la media, fueron consideradas de alta atención y se compararon con las palabras clave originales seleccionadas.
Por otra parte, para los modelos base, las secciones fueron representadas por la frecuencia de aparición de términos, y los algoritmos fueron entrenados y probados mediante validación cruzada. Posteriormente, se compararon los resultados del modelo desarrollado por el grupo de investigación con los 4 modelos base mencionados.
Comparación de métricas
Las dos medidas usadas para la comparación de las métricas fueron AUROC (área bajo la curva de la característica operativa del receptor) y AUPRC (área bajo la curva de precisión y recuperación).
AUROC es un método de análisis habitual en estos modelos, ya que permite evaluar los diferentes umbrales entre sensibilidad y especificidad. AUPRC es otra métrica importante que ofrece información complementaria para datos no balanceados, cuando el porcentaje de casos positivos es bajo.
¿Cuáles son las principales conclusiones de este estudio de modelo de aprendizaje a partir de notas clínicas?
La conclusión principal de este estudio es que es posible realizar predicciones diagnósticas de deterioro cognitivo utilizando un modelo basado en las notas clínicas. Estos pacientes podrían estar en las primeras etapas del deterioro cognitivo, lo que permitiría identificar señales tempranas en los registros electrónicos de salud.
El modelo desarrollado para este propósito fue el mejor predictor para detectar pacientes que desarrollarán deterioro cognitivo, sin depender de los datos estructurados. Aunque el modelo de aprendizaje profundo fue el mejor, el modelo XGBoost también mostró buenas predicciones, y se plantea como una alternativa más sencilla en caso de no contar con la tecnología necesaria.
Métricas AUROC y AUPRC
Para comprobar estos resultados, se pueden observar las puntuaciones obtenidas en las métricas AUROC y AUPRC en los conjuntos de datos 1 y 2 (ver tablas 1 y 2, respectivamente). Es especialmente notable que el modelo basado en deep learning es el mejor predictor en ambas métricas.
En el caso de AUROC, todos los valores son superiores a 0.9, siendo siempre el modelo de deep learning el que mejor predice. En cuanto a AUPRC, esto es aún más evidente, ya que este modelo es el único que se mantiene por encima del valor 0.9.
Las diferencias entre estas métricas refuerzan la consistencia de los resultados, puesto que, mientras AUROC muestra la relación entre la tasa de verdaderos positivos y falsos positivos, AUPRC refleja la relación entre precisión y sensibilidad.
En muestras desbalanceadas, la métrica AUROC puede ser menos conservadora con los falsos positivos, por lo que la información complementaria de AUPRC permite confirmar el buen rendimiento de este modelo.
Modelo | AUROC | AUPRC |
Regresión logística | 0.936 | 0.880 |
Random Forest | 0.950 | 0.889 |
Support Vector Machine | 0.939 | 0.883 |
XGBoost | 0.953 | 0.882 |
Deep Learning | 0.971 | 0.933 |
Modelo | AUROC | AUPRC |
Regresión logística | 0.969 | 0.762 |
Random Forest | 0.985 | 0.830 |
Support Vector Machine | 0.954 | 0.723 |
XGBoost | 0.988 | 0.898 |
Deep Learning | 0.997 | 0.929 |
Rendimiento del modelo
Otro punto que destaca este estudio es que la longitud de las notas podría afectar al rendimiento del modelo; sin embargo, manteniendo suficiente contenido, se demuestra que la clasificación por secciones puede ser factible.
Además, este tipo de modelos podría aplicarse a otras patologías, aunque es importante considerar que la identificación de información ambigua o compleja puede resultar difícil.
Prueba NeuronUP 15 días gratis
Podrás trabajar con nuestras actividades, diseñar sesiones o rehabilitar a distancia
¿Dónde NeuronUP podría aportar en un estudio como este?
NeuronUP podría aportar de diversas formas a un estudio como este, ya que tiene una amplia trayectoria trabajando con grandes cantidades de datos.
Como se observa en este estudio, el manejo de grandes volúmenes de datos es uno de los principales desafíos al trabajar con notas clínicas. Por lo tanto, el equipo de NeuronUP, que cuenta con especialistas tanto en el ámbito clínico como en el análisis de datos, podría realizar valiosas aportaciones en el procesamiento de la información, ya sea mediante el uso de palabras clave o sin ellas.
Por otro lado, este estudio destaca por la comparación de cinco modelos diferentes, lo que otorga robustez a los resultados obtenidos para su modelo. La experiencia del equipo de NeuronUP también podría ser útil en el diseño de un modelo específico para este propósito, o en la creación de modelos robustos para compararlos con el modelo desarrollado.
Li Zhou. Profesora de medicina en la Facultad de Medicina de Harvard desde hace más de diez años, y es la investigadora principal en el Brigham and Women’s Hospital. Posee un doctorado en Informática Biomédica en la Universidad de Columbia, y su investigación se ha centrado en el procesamiento del lenguaje natural, la gestión del conocimiento y el apoyo a la toma de decisiones clínicas. Además, ha sido la investigadora principal en numerosos proyectos de investigación financiados por AHRQ, NIH y CRICO/RMF.
Bibliografía
- Wang L, Laurentiev J, Yang J, et al. Development and Validation of a Deep Learning Model for Earlier Detection of Cognitive Decline From Clinical Notes in Electronic Health Records. JAMA Netw Open. 2021;4(11):e2135174. doi:10.1001/jamanetworkopen.2021.35174