En este artículo, Antonio Javier Sutil Jiménez habla acerca del estudio «Predicción de la incidencia de la enfermedad de alzheimer mediante machine learning utilizando datos sanitarios administrativos a gran escala».
¿Por qué es importante el estudio de predicción de alzheimer con machine learning?
El avance de la tecnología puede proporcionar, en ocasiones, soluciones inesperadas a problemas médicos. Un ejemplo de esto es el uso de datos administrativos sanitarios para crear modelos predictivos de riesgo de padecer la enfermedad de alzheimer.
La gran novedad del trabajo de Park y colaboradores fue el aprovechamiento de esta cantidad masiva de datos que, como describen los investigadores, aún están en muchos casos por ser explotados. Por lo tanto, la digitalización de los historiales clínicos se ha convertido en un recurso de gran valor para reducir los esfuerzos y el coste de la recolección de datos.
A pesar de ello, su aplicación a enfermedades como el alzheimer había sido limitada. En parte, esto se ha solucionado gracias al aumento de la capacidad de computación, lo que permite aplicar técnicas de machine learning al análisis de los datos y crear modelos predictivos que puedan ser representativos de la población, al contar con muestras suficientemente grandes.
Premisa del estudio
Para la realización del estudio, se parte de la premisa de que el uso de datos de individuos en riesgo de padecer la enfermedad de alzheimer permitirá una mejor detección temprana de casos en estadio preclínico y, por lo tanto, mejorar las estrategias terapéuticas.
Para lograr este objetivo, el grupo de investigadores tuvo acceso a la base de datos del sistema nacional de salud de Corea, que contenía más de 40.000 historiales de salud de personas mayores de 65 años, con una gran cantidad de información como historia personal, antecedentes familiares, datos sociodemográficos, diagnósticos, medicación, etc.
¿Qué se ha hecho?
Dataset
Para llevar a cabo el estudio, se tomó una cohorte del NHIS-NSC (The National Health Insurance Service–National Sample Cohort) de Corea del Sur, que incluía más de un millón de participantes, y se les realizó un seguimiento durante once años (2002 a 2013).
La base de datos contenía información sobre los servicios de salud, diagnósticos y prescripciones de cada individuo, así como características clínicas, que incluían datos demográficos, niveles de ingresos basados en el salario mensual, códigos de enfermedades y medicamentos, valores de laboratorio, perfiles de salud e historial de enfermedades personales y familiares. De esta muestra, se seleccionaron 40.736 adultos mayores de 40 años para este estudio.
Definición operativa de la enfermedad de Alzheimer
A continuación, se creó una definición operativa de la enfermedad de alzheimer, basada en el algoritmo de un estudio canadiense previo.
Este algoritmo obtuvo una sensibilidad del 79% y una especificidad del 99%, incluyendo códigos de hospitalización, reclamaciones médicas y recetas específicas para el alzheimer.
Para mejorar la precisión en la detección de la enfermedad, se utilizaron las etiquetas de «definite AD» para los casos en los cuales se tenía un alto grado de certeza, y «probable AD» para los casos confirmados únicamente mediante los códigos de la CIE-10 (acrónimo de la Clasificación Internacional de Enfermedades), con el fin de minimizar los falsos negativos. Con estas etiquetas, se obtuvo una prevalencia de la enfermedad de Alzheimer del 1.5% para «definite AD» y del 4.9% para «probable AD».
Análisis
Para el análisis y procesamiento de los datos, se utilizaron características como la edad y el sexo, además de 21 variables provenientes de la base de datos NHIS-NSC, que incluían perfiles de salud e historial de enfermedades familiares, junto con más de 6.000 variables derivadas de los códigos CIE-10 y de medicación.
Una vez descritas las características, estas se alinearon centrándose en la incidencia del diagnóstico para cada individuo, según los códigos CIE-10 y los códigos de medicamentos. Esto permitió eliminar enfermedades raras y códigos de medicación con una baja frecuencia de aparición. Además, se excluyó a los individuos que no contaban con nuevos datos de salud en los dos últimos años. El conjunto final de variables utilizadas en los modelos incluyó 4.894 características únicas.
Para realizar las predicciones a «n» años en el grupo con enfermedad de alzheimer, se utilizaron las ventanas de tiempo comprendidas entre 2002 y el año de incidencia. En el grupo que no padecía la enfermedad, se tomaron los datos desde 2002 hasta 2010-n.
Por último, antes de implementar el modelo, se crearon subconjuntos de entrenamiento, validación y prueba utilizando tanto un conjunto de datos balanceado y muestreado aleatoriamente, como un conjunto de datos no balanceado.
Aplicación de técnicas de machine learning (ML)
Finalmente, se realizó el análisis de los datos implementando técnicas de machine learning como random forest, support vector machine con kernel lineal y regresión logística.
El entrenamiento, la validación y las pruebas se llevaron a cabo utilizando validación cruzada estratificada con 5 iteraciones.
La selección de características se realizó dentro de las muestras de entrenamiento utilizando un método de umbral de varianza, y la generalización del rendimiento del modelo se evaluó en las muestras de prueba/test.
Para comprobar el rendimiento del modelo, se utilizaron métricas habituales, como el área bajo la curva ROC, la sensibilidad y la especificidad.
Para más detalles de cómo se realizó este estudio, se recomienda acudir al artículo original.
Suscríbete
a nuestra
Newsletter
¿Cuáles son las principales conclusiones de este estudio de predicción de alzheimer con machine learning?
El trabajo destaca el potencial de las técnicas de aprendizaje automático dirigidas por datos como una herramienta prometedora para predecir el riesgo de demencia tipo alzheimer.
Ventaja principal del estudio
Este estudio presenta una gran ventaja en comparación con otros enfoques basados en información obtenida de pruebas de neuroimagen o evaluaciones neuropsicológicas, ya que se llevó a cabo utilizando exclusivamente datos administrativos.
Mientras que otros estudios se enfocan en poblaciones que ya se encuentran en una situación de riesgo clínico real o que han mostrado suficiente preocupación como para consultar a un profesional de la salud, este enfoque aprovecha la disponibilidad de datos administrativos para identificar riesgos sin necesidad de evaluaciones clínicas previas.
Definite AD | Probable AD | Non-AD | |
Nº | 614 | 2026 | 38.710 |
Edad | 80.7 | 79.2 | 74.5 |
Sexo (hombre, mujer) | 229, 285 | 733, 1293 | 18.200, 20.510 |
A continuación, se muestras las tablas comparativas entre definite AD y non AD, y Probable AD y non AD para los años de predicción 0 y 4 con todos los clasificadores usados en el estudio.
Años de predicción | Clasificador | Métricas | |||
Precisión | AUC | Sensibilidad | Especifidad | ||
0 años | Regresión logística | 0.76 | 0.794 | 0.726 | 0.793 |
Support Vector Model | 0.763 | 0.817 | 0.795 | 0.811 | |
Random Forest | 0.823 | 0.898 | 0.509 | 0.852 | |
4 años | Regresión logística | 0.627 | 0.661 | 0.509 | 0.745 |
Support Vector Model | 0.646 | 0.685 | 0.538 | 0.754 | |
Random Forest | 0.663 | 0.725 | 0.621 | 0.705 |
Años de predicción | Clasificador | Métricas | |||
Precisión | AUC | Sensibilidad | Especifidad | ||
0 años | Regresión logística | 0.763 | 0.783 | 0.689 | 0.783 |
Support Vector Model | 0.734 | 0.794 | 0.652 | 0.816 | |
Random Forest | 0.788 | 0.850 | 0.723 | 0.853 | |
4 años | Regresión logística | 0.611 | 0.644 | 0.516 | 0.707 |
Support Vector Model | 0.601 | 0.641 | 0.465 | 0.738 | |
Random Forest | 0.641 | 0.683 | 0.603 | 0.679 |
Ambas tablas presentadas son simplificaciones de las tablas del artículo original. En este caso, se redujo el número de años a solo dos (0 y 4 años) para los años de predicción.
Hallazgos para la predicción
Otro punto destacado del artículo son las características importantes halladas para la predicción. Estas se describen como relacionadas de manera positiva o negativa con la incidencia de la enfermedad de alzheimer. Algunas de las características relacionadas positivamente con el desarrollo de la enfermedad incluyen la edad, la presencia de proteína en la orina y la prescripción de zotepina (un antipsicótico).
Por el contrario, también se detectaron características que se relacionaron negativamente con la incidencia de la enfermedad, como la disminución de hemoglobina, la prescripción de nicametato citrato (un vasodilatador), los trastornos degenerativos del sistema nervioso y los trastornos del oído externo.
Además, se probó el modelo predictor usando únicamente las 20 características más importantes, y se encontró que el modelo tenía una precisión para los años 0 y 1 muy similar al original.
¿Es posible la detección basada en datos administrativos de salud?
Por lo tanto, la conclusión del estudio es que la detección de individuos con riesgo de Alzheimer basándose únicamente en datos administrativos de salud es posible. Sin embargo, los autores dejan abierta la posibilidad de que futuros estudios en diferentes naciones y sistemas de salud puedan corroborar estos resultados. Su replicación sería un hito que permitiría una detección más temprana y precisa de personas en riesgo.
Prueba NeuronUP 15 días gratis
Podrás trabajar con nuestras actividades, diseñar sesiones o rehabilitar a distancia
¿Dónde NeuronUP podría aportar en un estudio como este?
NeuronUP tiene experiencia en el ámbito científico en dos áreas principales:
- Proporcionando apoyo a grupos de investigación interesados en tecnología,
- realizando sus propios trabajos para ser publicados en revistas de alto impacto científico.
En concreto, para estudios con características similares a los revisados en este artículo, creemos que, al tener acceso a grandes conjuntos de datos como los descritos, NeuronUP cuenta con el equipo y la experiencia necesarios para:
- Por un lado, implementar técnicas sofisticadas de aprendizaje automático, como las mencionadas en el artículo;
- y, por otro lado, en el diseño del estudio. Es decir, dispone de un equipo capacitado para formular preguntas basadas en la literatura científica existente, así como para realizar estudios «data-driven» o dirigidos por los datos.
La particularidad de los estudios data-driven es que están centrados en el análisis y la interpretación de los datos. Esta perspectiva se basa en el uso de grandes cantidades de datos para descubrir patrones y tendencias ocultas.
El uso de nuevas tecnologías y avanzadas técnicas de análisis, necesarias para trabajar con estos grandes conjuntos de datos, era difícilmente accesible para la mayoría de los investigadores hasta hace pocos años. Por tanto, esta perspectiva es importante y necesaria cuando se dispone de grandes volúmenes de datos, ya que pueden ofrecer conclusiones novedosas que no se alcanzarían utilizando métodos basados únicamente en la teoría.
Bibliografía
- Park, J.H., Cho, H.E., Kim, J.H. et al. Machine learning prediction of incidence of Alzheimer’s disease using large-scale administrative health data. npj Digit. Med. 3, 46 (2020). https://doi.org/10.1038/s41746-020-0256-0