Site icon NeuronUP France

Modèle d’apprentissage profond pour la détection précoce des troubles cognitifs à partir de notes cliniques dans les dossiers médicaux électroniques

Modèle d’apprentissage profond pour la détection précoce des troubles cognitifs à partir de notes cliniques dans les dossiers médicaux électroniques

Modèle d’apprentissage profond pour la détection précoce des troubles cognitifs à partir de notes cliniques dans les dossiers médicaux électroniques

Antonio Javier Sutil Jiménez parle dans cet article des données apportées dans l’étude « Modèle d’apprentissage profond pour la détection précoce du déclin cognitif à partir de notes cliniques dans les dossiers médicaux électroniques ».

Pourquoi cette étude sur un modèle d’apprentissage à partir de notes cliniques est-elle importante ?

Cette étude aborde la détection précoce du déclin cognitif chez les adultes, ce qui est fondamental pour permettre des interventions thérapeutiques réussies, ralentir le déclin, prévenir le développement de maladies ou faciliter l’inscription de participants dans des essais cliniques.

Maladie d’Alzheimer

La maladie d’Alzheimer est un type de démence qui représente un grand problème à l’échelle mondiale. Cette maladie a été diagnostiquée chez près de 6 millions de personnes aux États-Unis, et sa prévalence augmente avec l’âge. Ainsi, le vieillissement de la population devrait également accroître son incidence au cours des prochaines années.

Cependant, au-delà de la maladie d’Alzheimer, le déclin cognitif léger est un problème de grande importance, souvent associé à un développement ultérieur de démence.

Déclin cognitif subjectif

De même, la catégorie de déclin cognitif subjectif a récemment été créée. Ce terme fait référence à la perception de l’individu de vivre une détérioration de ses capacités cognitives par rapport à son état antérieur.

Bien que cette étiquette ne soit pas une maladie en soi, il a été identifié que les personnes dans cette condition pourraient être à un stade précoce de déclin cognitif.

Détection du déclin cognitif

Bien que d’importants efforts soient faits pour améliorer les traitements de ces patients, la détection du déclin cognitif reste un défi, et l’amélioration des outils de détection est nécessaire pour que les traitements ultérieurs soient efficaces.

Outils en soins primaires

Étant donné que le nombre de professionnels spécialisés pour prendre en charge la population à risque est limité, une solution possible serait de doter les médecins de soins primaires d’outils adéquats. Ces médecins ne sont pas spécialistes en démence, mais ils ont un contact direct avec cette population, donc leur fournir des outils pour le diagnostic semble être une solution viable.

Dossiers médicaux électroniques

L‘utilisation des dossiers médicaux électroniques est proposée comme une alternative adéquate pour la création de ces outils, car ils recueillent l’historique des visites des patients dans un système de soins.

Cependant, il est important de souligner la difficulté d’identifier les signes de déclin cognitif non associés à l’âge, qui sont souvent documentés dans des évaluations cognitives et dans les préoccupations des patients enregistrées par les professionnels de santé. Bien que des études aient été menées à partir des informations cliniques des patients, l’utilisation des notes cliniques des dossiers médicaux pour cet objectif a rarement été approfondie.

Les notes cliniques comme ressource informative

Cette étude propose l’utilisation des notes cliniques comme une ressource informative pouvant capturer des informations souvent ignorées dans la majorité des études. L’analyse manuelle des notes cliniques serait très coûteuse, c’est pourquoi l’objectif de cette étude était de développer un modèle de détection automatique basé sur le deep learning.

Ainsi, l’approche de cette étude est originale et innovante en faisant usage des notes cliniques.

Les notes cliniques sont très importantes pour les dossiers de santé dans le domaine clinique. Cependant, leur utilisation dans le domaine scientifique a été limitée, ce qui fait que leur application pour la détection précoce du déclin cognitif pourrait présenter un grand intérêt.

Abonnez-vous
à notre
Newsletter

Que s’est-il fait ?

Base de données

Pour réaliser cette étude, les données d’une entreprise de santé privée ont été utilisées, en filtrant les patients par âge (ils devaient avoir plus de 50 ans) et par diagnostic de trouble cognitif léger. Plus précisément, les notes cliniques des 4 années précédant le diagnostic ont été analysées.

La définition du trouble cognitif s’est basée sur la mention de symptômes, de diagnostics, d’évaluations cognitives et de traitements. Lorsque les notes indiquaient un progrès, des épisodes transitoires ou réversibles, elles étaient considérées négatives pour le trouble cognitif.

Traitement des notes cliniques et développement de la base de données

Tout d’abord, en raison de la longueur des notes cliniques, un processeur de langage naturel a été utilisé pour les diviser en sections. Cette division a permis d’identifier si chaque section indiquait ou non un trouble cognitif.

Ensuite, des mots-clés sélectionnés par des experts ont été identifiés, experts formés pour reconnaître les sections contenant des indices de trouble cognitif. Trois annotateurs ont étiqueté les sections, et les conflits ont été résolus par des discussions avec des experts dans ce domaine, obtenant un bon niveau d’accord entre les annotateurs.

De plus, un ensemble de données étiqueté avec 4 950 sections a été créé pour entraîner et tester divers algorithmes d’apprentissage automatique. Finalement, deux bases de données ont été créées pour le développement et la validation du modèle.

Jeux de données

Le premier jeu de données, utilisé pour le développement du modèle, incluait uniquement les sections contenant des mots-clés sélectionnés. Ce jeu de données contenait 4 950 sections étiquetées, prêtes pour le développement des modèles d’apprentissage automatique.

Le second jeu de données consistait en 2 000 sections choisies au hasard parmi toutes les notes, en excluant celles utilisées dans le premier ensemble. Ce second jeu a été utilisé pour vérifier la capacité de généralisation du modèle sur des sections de notes sans application de filtre basé sur des mots-clés.

Développement du modèle et validation

Pour développer le modèle, une structure hiérarchique d’attention basée sur le deep learning, qui avait été développée dans un travail antérieur, a été utilisée, ainsi que quatre algorithmes de base d’apprentissage automatique : la régression logistique, le random forest, la machine à vecteurs de support et XGBoost.

Le modèle précédemment développé incorporait un réseau neuronal convolutionnel adapté au contexte, ce qui permettait de gérer les variations de mots et d’interpréter la prédiction via des couches d’attention. Pour plus d’informations sur le modèle, il est recommandé de consulter l’article et ses tableaux supplémentaires.

Interprétation de la prédiction du modèle

Pour interpréter la prédiction du modèle, les mots ayant le plus de poids dans les couches d’attention utilisées dans la prédiction ont été identifiés. Les mots ayant un poids significatif, c’est-à-dire au moins 2 écarts-types au-dessus de la moyenne, ont été considérés comme d’une attention élevée et ont été comparés aux mots-clés originaux sélectionnés.

D’autre part, pour les modèles de base, les sections ont été représentées par la fréquence d’apparition des termes, et les algorithmes ont été entraînés et testés via une validation croisée. Par la suite, les résultats du modèle développé par le groupe de recherche ont été comparés aux 4 modèles de base mentionnés.

Comparaison des métriques

Les deux mesures utilisées pour la comparaison des métriques étaient l’AUROC (aire sous la courbe de la caractéristique de fonctionnement du récepteur) et l’AUPRC (aire sous la courbe de précision et de rappel).

L’AUROC est une méthode d’analyse couramment utilisée dans ces modèles, car elle permet d’évaluer différents seuils entre sensibilité et spécificité. L’AUPRC est une autre métrique importante qui offre des informations complémentaires pour les données non équilibrées, lorsque le pourcentage de cas positifs est faible.

Quelles sont les principales conclusions de cette étude sur le modèle d’apprentissage à partir des notes cliniques ?

La principale conclusion de cette étude est qu’il est possible de réaliser des prédictions diagnostiques de troubles cognitifs en utilisant un modèle basé sur les notes cliniques. Ces patients pourraient se trouver dans les premières étapes du déclin cognitif, permettant ainsi d’identifier des signes précoces dans les dossiers électroniques de santé.

Le modèle développé pour cet objectif a été le meilleur prédicteur pour détecter les patients susceptibles de développer un déclin cognitif, sans dépendre des données structurées. Bien que le modèle d’apprentissage profond ait été le meilleur, le modèle XGBoost a également montré de bonnes prédictions et est proposé comme une alternative plus simple en l’absence de la technologie nécessaire.

Métriques AUROC et AUPRC

Pour vérifier ces résultats, on peut observer les scores obtenus dans les métriques AUROC et AUPRC dans les ensembles de données 1 et 2 (voir tableaux 1 et 2, respectivement). Il est particulièrement notable que le modèle basé sur le deep learning soit le meilleur prédicteur dans les deux métriques.

Dans le cas de l’AUROC, toutes les valeurs sont supérieures à 0,9, le modèle d’apprentissage profond étant toujours celui qui prédit le mieux. Quant à l’AUPRC, cela est encore plus évident, car ce modèle est le seul à se maintenir au-dessus du seuil de 0,9.

Les différences entre ces métriques renforcent la cohérence des résultats, car si l’AUROC montre la relation entre le taux de vrais positifs et de faux positifs, l’AUPRC reflète la relation entre précision et sensibilité.

Dans des échantillons déséquilibrés, la métrique AUROC peut être moins conservatrice avec les faux positifs, ce qui rend l’information complémentaire de l’AUPRC essentielle pour confirmer les bonnes performances de ce modèle.

ModèleAUROCAUPRC
Régression logistique0.9360.880
Random Forest0.9500.889
Support Vector Machine0.9390.883
XGBoost0.9530.882
Deep Learning0.9710.933
Tableau 1. Comparaison des modèles pour l’ensemble de données comprenant 4950 sections.
ModèleAUROCAUPRC
Régression logistique0.9690.762
Random Forest0.9850.830
Support Vector Machine0.9540.723
XGBoost0.9880.898
Deep Learning0.9970.929
Tableau 2. Comparaison des modèles pour l’ensemble de données avec 2000 sections.

Performance du modèle

Un autre point mis en avant dans cette étude est que la longueur des notes pourrait affecter la performance du modèle ; cependant, en conservant un contenu suffisant, il est démontré que la classification par sections peut être réalisable.

De plus, ce type de modèles pourrait être appliqué à d’autres pathologies, bien qu’il soit important de considérer que l’identification d’informations ambiguës ou complexes peut être difficile.

Essayez NeuronUP gratuitement pendant 15 jours

Vous pourrez travailler avec nos activités, concevoir des séances ou effectuer des réhabilitations à distance

Où NeuronUP pourrait apporter sa contribution dans une étude comme celle-ci ?

NeuronUP pourrait apporter de diverses manières à une étude comme celle-ci, car elle a une large expérience de travail avec de grandes quantités de données.

Comme on le voit dans cette étude, la gestion de grands volumes de données est l’un des principaux défis lors du travail avec des notes cliniques. Par conséquent, l’équipe de NeuronUP, qui comprend des spécialistes tant dans le domaine clinique que dans l’analyse de données, pourrait fournir des contributions précieuses dans le traitement de l’information, que ce soit par l’utilisation de mots-clés ou sans eux.

D’autre part, cette étude se distingue par la comparaison de cinq modèles différents, ce qui renforce la robustesse des résultats obtenus pour son modèle. L’expérience de l’équipe de NeuronUP pourrait également être utile dans la conception d’un modèle spécifique à cet objectif ou dans la création de modèles robustes pour les comparer au modèle développé.

Li Zhou. Professeur de médecine à la Harvard Medical School depuis plus de dix ans, elle est la chercheuse principale au Brigham and Women’s Hospital. Elle possède un doctorat en informatique biomédicale de l’Université de Columbia, et sa recherche s’est concentrée sur le traitement du langage naturel, la gestion des connaissances et le soutien à la prise de décisions cliniques. De plus, elle a été la chercheuse principale de nombreux projets de recherche financés par l’AHRQ, les NIH et CRICO/RMF.

Bibliographie

Si vous avez aimé ce post, ces articles de NeuronUP pourraient également vous intéresser :

Quitter la version mobile