Quel est l'objectif de la prédiction de la maladie d'Alzheimer par apprentissage automatique ?

Identifier des individus à risque en exploitant de larges bases administratives pour améliorer la détection précoce et orienter les stratégies thérapeutiques.

Quelles données administratives ont été utilisées dans l'étude ?

Cohorte NHIS-NSC coréenne, plus d'un million de participants suivis onze ans; 40 736 adultes >40 ans sélectionnés, incluant diagnostics, médicaments, données biologiques, démographie et antécédents.

Quelles techniques d'apprentissage automatique ont été appliquées ?

Random Forest, Support Vector Machine (noyau linéaire) et régression logistique, avec sélection de caractéristiques, validation croisée stratifiée et évaluation par AUC, sensibilité et spécificité.

Quelles performances des modèles pour prédire la maladie d'Alzheimer ?

Bonnes performances à 0 an (AUC≈0,79–0,90 selon le classifieur), baisse de performance à 4 ans (AUC≈0,64–0,73). Random Forest performe le mieux à court terme.

Quelles caractéristiques expliquent la prédiction de la maladie d'Alzheimer ?

Caractéristiques positives: âge, protéinurie, prescription de zotepine. Caractéristiques négatives: baisse d'hémoglobine, nicametato citrate, troubles dégénératifs du système nerveux et de l'oreille externe. Les 20 variables top conservent une grande précision.

Quelles limites et perspectives pour la détection basée sur des données administratives ?

Approche prometteuse mais nécessite réplication dans d'autres systèmes de santé, évaluation des biais, validation clinique et garanties de confidentialité avant déploiement opérationnel.

Prédiction de l’incidence de la maladie d’Alzheimer grâce à l’apprentissage automatique

Dans cet article, Antonio Javier Sutil Jiménez parle de l’étude «Prédiction de l’incidence de la maladie d’alzheimer par apprentissage automatique en utilisant des données sanitaires administratives à grande échelle».

Pourquoi l’étude de prédiction de la maladie d’alzheimer par apprentissage automatique est-elle importante ?

Les progrès technologiques peuvent parfois apporter des solutions inattendues à des problèmes médicaux. Un exemple en est l’utilisation de données sanitaires administratives pour créer des modèles prédictifs du risque de développer la maladie d’alzheimer.

La grande nouveauté du travail de Park et collaborateurs a été l’exploitation de cette quantité massive de données qui, comme le décrivent les chercheurs, sont encore dans de nombreux cas sous-exploitées. Par conséquent, la numérisation des dossiers cliniques est devenue une ressource de grande valeur pour réduire les efforts et le coût de la collecte de données.

Malgré cela, son application à des maladies comme l’alzheimer avait été limitée. En partie, cela a été résolu grâce à l’augmentation de la capacité de calcul, ce qui permet d’appliquer des techniques d’apprentissage automatique à l’analyse des données et de créer des modèles prédictifs représentatifs de la population, en disposant d’échantillons suffisamment grands.

Prémisse de l’étude

Pour la réalisation de l’étude, on part de la prémisse que l’utilisation de données d’individus à risque de développer la maladie d’alzheimer permettra une meilleure détection précoce des cas au stade préclinique et, par conséquent, d’améliorer les stratégies thérapeutiques.

Pour atteindre cet objectif, le groupe de chercheurs a eu accès à la base de données du système national de santé de Corée, qui contenait plus de 40.000 dossiers de santé de personnes de plus de 65 ans, avec une grande quantité d’informations telles que l’historique personnel, les antécédents familiaux, les données sociodémographiques, les diagnostics, la médication, etc.

Qu’a-t-on fait ?

Dataset

Pour mener l’étude, une cohorte du NHIS-NSC (The National Health Insurance Service–National Sample Cohort) de Corée du Sud a été utilisée, incluant plus d’un million de participants, et suivie pendant onze ans (2002 à 2013).

La base de données contenait des informations sur les services de santé, les diagnostics et les prescriptions de chaque individu, ainsi que des caractéristiques cliniques, incluant des données démographiques, les niveaux de revenus basés sur le salaire mensuel, les codes de maladies et de médicaments, les valeurs de laboratoire, les profils de santé et l’historique des maladies personnelles et familiales. De cet échantillon, 40.736 adultes de plus de 40 ans ont été sélectionnés pour cette étude.

Définition opérationnelle de la maladie d’Alzheimer

Ensuite, une définition opérationnelle de la maladie d’alzheimer a été créée, basée sur l’algorithme d’une étude canadienne antérieure.

Cet algorithme a obtenu une sensibilité de 79% et une spécificité de 99%, incluant des codes d’hospitalisation, des réclamations médicales et des prescriptions spécifiques pour l’alzheimer.

Pour améliorer la précision de la détection de la maladie, les étiquettes «definite AD» ont été utilisées pour les cas pour lesquels on avait un degré élevé de certitude, et «probable AD» pour les cas confirmés uniquement au moyen des codes de la CIE-10 (acrónimo de la Clasificación Internacional de Enfermedades), afin de minimiser les faux négatifs. Avec ces étiquettes, une prévalence de la maladie d’Alzheimer de 1.5% pour «definite AD» et de 4.9% pour «probable AD» a été obtenue.

Analyse

Pour l’analyse et le traitement des données, des caractéristiques telles que l’âge et le sexe ont été utilisées, en plus de 21 variables provenant de la base de données NHIS-NSC, incluant des profils de santé et l’historique des maladies familiales, ainsi que plus de 6.000 variables dérivées des codes CIE-10 et des médicaments.

Une fois les caractéristiques décrites, celles-ci ont été alignées en se centrant sur l’incidence du diagnostic pour chaque individu, selon les codes CIE-10 et les codes de médicaments. Cela a permis d’éliminer les maladies rares et les codes de médication avec une faible fréquence d’apparition. De plus, les individus n’ayant pas de nouvelles données de santé au cours des deux dernières années ont été exclus. L’ensemble final de variables utilisées dans les modèles comprenait 4.894 caractéristiques uniques.

Pour réaliser les prédictions à « n » années dans le groupe atteint de la maladie d’alzheimer, des fenêtres temporelles comprises entre 2002 et l’année d’incidence ont été utilisées. Dans le groupe non atteint de la maladie, les données ont été prises de 2002 jusqu’à 2010-n.

Enfin, avant d’implémenter le modèle, des sous-ensembles d’entraînement, de validation et de test ont été créés en utilisant à la fois un ensemble de données équilibré et échantillonné aléatoirement, et un ensemble de données non équilibré.

Application de techniques d’apprentissage automatique (ML)

Finalement, une analyse des données en implémentant des techniques d’apprentissage automatique telles que random forest, support vector machine avec noyau linéaire et régression logistique a été réalisée.

L’entraînement, la validation et les tests ont été effectués en utilisant une validation croisée stratifiée avec 5 itérations.

La sélection des caractéristiques a été réalisée au sein des échantillons d’entraînement en utilisant une méthode de seuil de variance, et la généralisation de la performance du modèle a été évaluée sur les échantillons de test.

Pour vérifier la performance du modèle, des métriques habituelles ont été utilisées, comme l’aire sous la courbe ROC, la sensibilité et la spécificité.

Pour plus de détails sur la manière dont cette étude a été réalisée, il est recommandé de consulter l’article original.

Abonnez-vous
à notre
Newsletter

Abonnez-vous

Quelles sont les principales conclusions de cette étude de prédiction de la maladie d’Alzheimer par apprentissage automatique ?

Le travail met en avant le potentiel des techniques d’apprentissage automatique guidées par les données comme un outil prometteur pour prédire le risque de démence de type alzheimer.

Principal avantage de l’étude

Cette étude présente un grand avantage par rapport à d’autres approches basées sur des informations obtenues à partir d’épreuves de neuroimagerie ou d’évaluations neuropsychologiques, puisqu’elle a été réalisée en utilisant exclusivement des données administratives.

Tandis que d’autres études se concentrent sur des populations déjà en situation de risque clinique réel ou ayant suffisamment d’inquiétude pour consulter un professionnel de santé, cette approche tire parti de la disponibilité des données administratives pour identifier les risques sans nécessiter d’évaluations cliniques préalables.

	Definite AD	Probable AD	Non-AD
Nº	614	2026	38.710
Edad	80.7	79.2	74.5
Sexo (hombre, mujer)	229, 285	733, 1293	18.200, 20.510

Tableau1. Données simplifiées des caractéristiques de l’échantillon. Pour une précision accrue des données et un plus grand nombre de caractéristiques, consulter le tableau 1 de l’article original.

Ci-dessous sont présentés les tableaux comparatifs entre definite AD et non AD, et Probable AD et non AD pour les années de prédiction 0 et 4 avec tous les classificateurs utilisés dans l’étude.

Años de predicción	Clasificador	Métricas
		Precisión	AUC	Sensibilidad	Especifidad
0 años	Regresión logística	0.76	0.794	0.726	0.793
	Support Vector Model	0.763	0.817	0.795	0.811
	Random Forest	0.823	0.898	0.509	0.852
4 años	Regresión logística	0.627	0.661	0.509	0.745
	Support Vector Model	0.646	0.685	0.538	0.754
	Random Forest	0.663	0.725	0.621	0.705

Definite AD vs Non AD.

Años de predicción	Clasificador	Métricas
		Precisión	AUC	Sensibilidad	Especifidad
0 años	Regresión logística	0.763	0.783	0.689	0.783
	Support Vector Model	0.734	0.794	0.652	0.816
	Random Forest	0.788	0.850	0.723	0.853
4 años	Regresión logística	0.611	0.644	0.516	0.707
	Support Vector Model	0.601	0.641	0.465	0.738
	Random Forest	0.641	0.683	0.603	0.679

Probable AD vs non AD.

Les deux tableaux présentés sont des simplifications des tableaux de l’article original. Dans ce cas, le nombre d’années a été réduit à seulement deux (0 et 4 ans) pour les années de prédiction.

Résultats pour la prédiction

Un autre point saillant de l’article concerne les caractéristiques importantes trouvées pour la prédiction. Celles-ci sont décrites comme liées de manière positive ou négative à l’incidence de la maladie d’Alzheimer. Certaines des caractéristiques liées positivement au développement de la maladie incluent l’âge, la présence de protéine dans les urines et la prescription de zotepine (un antipsychotique).

En revanche, des caractéristiques liées négativement à l’incidence de la maladie ont également été détectées, telles que la diminution de l’hémoglobine, la prescription de nicametato citrate (un vasodilatateur), les troubles dégénératifs du système nerveux et les troubles de l’oreille externe.

De plus, le modèle prédictif a été testé en n’utilisant que les 20 caractéristiques les plus importantes, et il a été constaté que le modèle avait une précision pour les années 0 et 1 très similaire à celle de l’original.

La détection basée sur des données administratives de santé est-elle possible ?

Par conséquent, la conclusion de l’étude est que la détection d’individus à risque d’Alzheimer en se basant uniquement sur des données administratives de santé est possible. Cependant, les auteurs laissent ouverte la possibilité que des études futures dans différentes nations et systèmes de santé puissent corroborer ces résultats. Leur réplication serait une étape importante permettant une détection plus précoce et plus précise des personnes à risque.

Essayez NeuronUP 7 jours gratuitement

Vous pourrez travailler avec nos activités, concevoir des séances ou effectuer des réhabilitations à distance

Commencez votre essai

Où NeuronUP pourrait-elle apporter dans une étude comme celle-ci ?

NeuronUP possède une expertise scientifique dans deux domaines principaux :

Apporter un soutien aux groupes de recherche intéressés par la technologie,
réaliser ses propres travaux pour être publiés dans des revues à fort impact scientifique.

Plus précisément, pour des études présentant des caractéristiques similaires à celles examinées dans cet article, nous pensons que, disposant d’un accès à de grands ensembles de données comme ceux décrits, NeuronUP dispose de l’équipe et de l’expérience nécessaires pour :

D’une part, mettre en œuvre des techniques sophistiquées d’apprentissage automatique, comme celles mentionnées dans l’article ;
et, d’autre part, dans la conception de l’étude. C’est-à-dire qu’elle dispose d’une équipe capable de formuler des questions basées sur la littérature scientifique existante, ainsi que de réaliser des études « data-driven » ou guidées par les données.

La particularité des études axées sur les données est qu’elles sont centrées sur l’analyse et l’interprétation des données. Cette perspective repose sur l’utilisation de grandes quantités de données pour découvrir des motifs et des tendances cachées.

L’utilisation de nouvelles technologies et de techniques d’analyse avancées, nécessaires pour travailler avec ces grands ensembles de données, était difficilement accessible à la plupart des chercheurs jusqu’à il y a quelques années. Par conséquent, cette perspective est importante et nécessaire lorsqu’on dispose de grands volumes de données, car elles peuvent offrir des conclusions nouvelles qui ne seraient pas atteintes en utilisant des méthodes basées uniquement sur la théorie.

Bibliographie

Park, J.H., Cho, H.E., Kim, J.H. et al. Machine learning prediction of incidence of Alzheimer’s disease using large-scale administrative health data. npj Digit. Med. 3, 46 (2020). https://doi.org/10.1038/s41746-020-0256-0