Dans cet article, la doctorante Marta Arbizu Gómez présente l’étude « Les grands modèles linguistiques déconstruisent l’intuition clinique pour diagnostiquer l’autisme », qui explore l’impact de l’utilisation de modèles de langage à grande échelle pour le diagnostic de l’autisme.
Introduction
Le diagnostic du trouble du spectre de l’autisme (TSA) a traditionnellement été une tâche complexe, reposant en grande partie sur l’expérience clinique, l’observation minutieuse et l’interprétation de comportements variés. Bien qu’il existe des guides diagnostiques bien définis comme le DSM-5, la pratique clinique repose souvent sur une “intuition” que les professionnels développent au fil des années. Mais que se passerait-il si nous pouvions “lire” cette intuition et la comprendre de manière plus objective ?
Une étude récente publiée dans la revue Cell, intitulée « Large language models deconstruct the clinical intuition behind diagnosing autism », explore précisément cette possibilité : utiliser des modèles de langage à grande échelle (LLMs, selon l’acronyme anglais) pour dévoiler les schémas suivis par les cliniciens lorsqu’ils posent un diagnostic d’autisme. Les résultats ne sont pas seulement surprenants, ils pourraient aussi avoir des implications profondes sur notre manière actuelle de comprendre et de poser les diagnostics de TSA.
Contexte : pourquoi faut-il revoir notre façon de diagnostiquer l’autisme ?
Le TSA est un trouble du neurodéveloppement caractérisé par des difficultés dans la communication sociale et des comportements et intérêts restreints et répétitifs. Cependant, ces caractéristiques peuvent se manifester de manière très variable d’un individu à l’autre, rendant le diagnostic nuancé et parfois subjectif.
De plus, même si des outils diagnostiques standardisés comme l’ADOS ou l’ADI-R structurent le processus, de nombreux diagnostics reposent sur des rapports narratifs rédigés par des cliniciens ayant observé le patient. Autrement dit, la manière dont le clinicien décrit le patient peut peser lourd dans le diagnostic final.
Face à cette réalité, les chercheurs ont posé une question essentielle : quels éléments de ces rapports écrits guident réellement les décisions diagnostiques ?
Obtenez un guide d’activités pour travailler avec les personnes souffrant d’un trouble du spectre autistique + 1 activité imprimable gratuite
Qu’ont fait les chercheurs ?
Les auteurs de l’étude ont recueilli plus de 40 000 rapports cliniques d’enfants provenant du système de santé publique du Massachusetts. Ces rapports, rédigés par des professionnels de la santé mentale, contenaient des descriptions détaillées du comportement et du fonctionnement des patients.
À partir de cette base de données, les chercheurs ont entraîné plusieurs modèles de langage, dont GPT-4 (développé par OpenAI) et un modèle clinique open source nommé Clinician-LLaMA. L’objectif était que les modèles apprennent à prédire si un rapport clinique correspondait à un patient diagnostiqué avec un TSA ou non, en se basant uniquement sur le texte.
Les résultats ont été surprenants : les modèles ont atteint une précision remarquable dans la classification, même lorsqu’on leur cachait des informations clés comme le sexe ou l’âge du patient. Cela suggère que les rapports contenaient des schémas linguistiques implicites détectables par les modèles, reflétant la manière dont les cliniciens prennent leurs décisions.
Qu’ont-ils découvert ?
Au-delà de la précision des prédictions, ce qui a le plus retenu l’attention, c’est ce que les modèles ont révélé sur le processus diagnostique lui-même. En analysant les passages du texte ayant le plus d’influence sur les décisions du modèle, les chercheurs ont identifié que certains types de comportements et descriptions étaient plus déterminants que d’autres.
Comme on peut le voir dans le graphique, les comportements répétitifs, stéréotypés, les intérêts restreints et les aspects liés à la perception sensorielle sont les facteurs les plus associés à un diagnostic positif de TSA. À l’inverse, les difficultés d’interaction sociale, pourtant un pilier traditionnel du diagnostic selon le DSM-5, ont eu moins de poids dans les modèles.
Cela ne signifie pas que les difficultés sociales ne sont pas importantes, mais qu’en pratique, les cliniciens semblent accorder plus d’attention — peut-être de manière inconsciente — à d’autres schémas comportementaux au moment de décider si un patient répond aux critères diagnostiques.
Les principaux résultats de l’étude sont résumés dans un tableau ci-dessous pour en faciliter la compréhension :
Aspect analysé | Résultat / Observation |
Modèle utilisé | GPT-4 et Clinician-LLaMA (modèles de langage entraînés avec des rapports cliniques). |
Source des données | Plus de 40 000 rapports cliniques pédiatriques du système de santé publique du Massachusetts. |
Tâche du modèle | Prédire si le patient avait un diagnostic d’autisme en se basant uniquement sur le texte du rapport. |
Précision du modèle | Élevée, même lorsque des variables comme le sexe ou l’âge étaient masquées. |
Facteurs les plus déterminants dans le diagnostic | Comportements répétitifs, intérêts restreints et traits sensoriels/perceptifs. |
Facteurs les moins déterminants | Difficultés dans l’interaction sociale. |
Implication clé | Dans la pratique clinique, les comportements observables influencent plus qu’on ne le pensait. |
Impact potentiel sur les critères diagnostiques | Suggère la nécessité de réévaluer l’importance de certains critères dans le DSM-5. |
Application de l’IA en santé mentale | Outil de soutien au diagnostic et à l’analyse du raisonnement clinique. |
Comme on peut le constater, les modèles de langage ne se sont pas seulement montrés capables de prédire le diagnostic de TSA avec une grande précision, mais ont aussi révélé que certains schémas comportementaux — en particulier les comportements répétitifs et les intérêts restreints — sont plus influents dans la pratique clinique que ce que suggèrent les critères diagnostiques traditionnels. Cela ouvre la porte à une réflexion sur la manière dont ces critères sont appliqués dans le contexte réel.
Implications : devons-nous repenser les critères diagnostiques de l’autisme ?
Ces résultats ouvrent un débat important : les critères diagnostiques actuels reflètent-ils réellement la manière dont les professionnels évaluent les patients ?
Si les cliniciens accordent systématiquement plus d’importance à des comportements observables comme les stéréotypies ou les intérêts restreints, il pourrait être nécessaire de réévaluer le poids accordé à chaque catégorie diagnostique dans les guides officiels.
En outre, cette approche pourrait avoir des implications pour la formation des nouveaux professionnels, qui bénéficieraient de mieux comprendre comment les critères sont appliqués en pratique, au-delà de la théorie.
L’intelligence artificielle peut-elle aider au diagnostic clinique du TSA ?
L’un des grands atouts de l’intelligence artificielle dans le domaine de la santé est sa capacité à détecter des schémas complexes dans de vastes volumes de données. Dans ce cas, les modèles de langage ne se contentent pas d’agir comme des outils de classification, mais servent aussi d’instruments permettant de rendre visible l’invisible : la logique implicite derrière les décisions cliniques.
Loin de remplacer les professionnels, ces modèles peuvent être des alliés, apportant un second avis basé sur des milliers de cas précédents et aidant à détecter des biais ou des incohérences dans les processus diagnostiques.
Quelle contribution NeuronUP pourrait-elle apporter à des études comme celle-ci ?
NeuronUP pourrait contribuer de manière significative à ce type d’études en facilitant la reproduction dans des populations plus diverses et non anglophones, grâce à sa présence internationale. Sa plateforme, avec des centaines d’activités cognitives, permettrait de compléter l’analyse des rapports cliniques avec des données structurées sur la performance cognitive. De plus, cette approche pourrait être appliquée à d’autres troubles cliniques comme le TDAH ou le déclin cognitif léger, en améliorant la détection précoce et la précision diagnostique.
Essayez NeuronUP 7 jours gratuitement
Vous pourrez travailler avec nos activités, concevoir des séances ou effectuer des réhabilitations à distance
Conclusion de l’étude
Cette étude marque une avancée majeure à l’intersection entre intelligence artificielle et santé mentale. En utilisant des modèles de langage pour analyser des rapports cliniques, les chercheurs ont non seulement démontré que le diagnostic de l’autisme peut être prédit avec une précision remarquable, mais aussi révélé comment se construit l’“intuition clinique” qui guide ces décisions.
Dans un avenir proche, ce type d’outil pourrait être intégré dans les systèmes de santé pour offrir un soutien au diagnostic, améliorer la formation des professionnels, et peut-être même redéfinir les critères avec lesquels nous comprenons l’autisme. Une chose est sûre : l’intelligence artificielle ne transforme pas seulement la technologie, mais aussi notre manière de comprendre l’esprit humain.
Bibliographie
- Feng S, Sondhi R, Tu X, Buckley J, Sands A, Comiter A, Zhang H, Gao R, Sragovich S, Mello JD, Fedorenko E, Saxe R, Sontheimer EJ, Sapiro G, O’Reilly UM, McCoy TH, Beam AL. Large language models deconstruct the clinical intuition behind diagnosing autism. Cell. 2024 Mar 21. doi: 10.1016/j.cell.2024.03.004.
Laisser un commentaire