In diesem Artikel stellt die Doktorandin Marta Arbizu Gómez die Studie «Große Sprachmodelle dekonstruieren die klinische Intuition zur Diagnose von Autismus» vor, in der die Auswirkungen der Verwendung großskaliger Sprachmodelle zur Diagnose von Autismus untersucht werden.
Einleitung
Die Diagnose von Autismus-Spektrum-Störungen (ASS) war traditionell eine komplexe Aufgabe, die stark von klinischer Erfahrung, sorgfältiger Beobachtung und der Interpretation vielfältiger Verhaltensweisen abhängt. Obwohl es klar definierte Diagnoseleitlinien wie das DSM-5 gibt, wird die klinische Praxis oft durch eine „Intuition“ geleitet, die Fachkräfte über Jahre hinweg entwickeln. Aber was wäre, wenn wir diese Intuition „lesen“ und aus einer objektiveren Perspektive verstehen könnten?
Eine kürzlich in der Zeitschrift Cell veröffentlichte Studie mit dem Titel „Large language models deconstruct the clinical intuition behind diagnosing autism“ untersucht genau diese Möglichkeit: den Einsatz großskaliger Sprachmodelle (LLMs, für „Large Language Models“) zur Entschlüsselung der Muster, denen Kliniker bei der Diagnose von Autismus folgen. Die Ergebnisse sind nicht nur überraschend, sondern könnten auch tiefgreifende Auswirkungen darauf haben, wie wir heute ASS-Diagnosen verstehen und stellen.
Der Kontext: Warum sollte die Art und Weise, wie wir Autismus diagnostizieren, überdacht werden?
ASS ist eine neurologische Entwicklungsstörung, die durch Herausforderungen in der sozialen Kommunikation sowie durch eingeschränkte und repetitive Verhaltensmuster und Interessen gekennzeichnet ist. Diese Merkmale können sich jedoch von Person zu Person sehr unterschiedlich äußern, was die Diagnose zu einem nuancierten und mitunter subjektiven Prozess macht.
Auch wenn standardisierte Diagnoseinstrumente wie ADOS oder ADI-R dem Prozess Struktur verleihen, basieren viele Diagnosen auf narrativen Berichten, die von Kliniker:innen verfasst wurden, die den Patienten beobachtet haben. Das heißt: Die Art und Weise, wie ein:e Kliniker:in den Patienten beschreibt, kann erheblichen Einfluss auf die endgültige Diagnose haben.
Angesichts dieser Realität stellten sich die Forscher:innen eine entscheidende Frage: Welche Elemente in diesen schriftlichen Berichten beeinflussen tatsächlich die diagnostischen Entscheidungen?
Melden Sie sich
für unseren
Newsletter an
Was haben die Forschenden getan?
Die Autor:innen der Studie sammelten über 40.000 klinische Berichte von Kindern aus dem öffentlichen Gesundheitssystem von Massachusetts. Diese Berichte, verfasst von Fachleuten der psychischen Gesundheit, enthielten detaillierte Beschreibungen des Verhaltens und der Funktionsweise der Patient:innen.
Auf Basis dieser Datenbank trainierten die Forschenden mehrere Sprachmodelle, darunter GPT-4 (entwickelt von OpenAI) sowie ein quelloffenes klinisches Modell namens Clinician-LLaMA. Die Idee war, dass die Modelle lernen sollten, vorherzusagen, ob ein klinischer Bericht zu einer Person mit ASS-Diagnose gehört oder nicht, allein anhand des Textes.
Die Ergebnisse waren überraschend: Die Modelle erreichten eine bemerkenswerte Genauigkeit bei der Klassifikation, selbst wenn ihnen entscheidende Informationen wie Geschlecht oder Alter der Patient:innen vorenthalten wurden. Dies deutet darauf hin, dass die Berichte implizite Sprachmuster enthielten, die von den Modellen erkannt wurden und die die Entscheidungsfindung von Kliniker:innen widerspiegeln.
Was wurde herausgefunden?
Über die Genauigkeit der Vorhersagen hinaus war besonders interessant, was die Modelle über den Diagnoseprozess selbst offenbarten. Bei der Analyse, welche Textstellen für die Entscheidungen der Modelle am wichtigsten waren, identifizierten die Forschenden bestimmte Verhaltensbeschreibungen als besonders ausschlaggebend.
Wie in der Grafik zu sehen ist, waren repetitive, stereotype Verhaltensweisen, eingeschränkte Interessen und sensorisch-perzeptive Merkmale die Faktoren, die am häufigsten mit einer positiven ASS-Diagnose assoziiert wurden. Im Gegensatz dazu hatten soziale Interaktionsprobleme, die laut DSM-5 traditionell als zentrales Merkmal gelten, in den Modellen ein geringeres Gewicht.
Das bedeutet nicht, dass soziale Schwierigkeiten irrelevant sind, sondern dass Kliniker:innen in der Praxis — möglicherweise unbewusst — anderen Verhaltensmustern mehr Aufmerksamkeit schenken, wenn sie entscheiden, ob ein Patient die diagnostischen Kriterien erfüllt.
Nachfolgend sind die zentralen Studienergebnisse in einer Tabelle zusammengefasst, um das Verständnis zu erleichtern:
Untersuchter Aspekt | Ergebnis / Beobachtung |
Verwendetes Modell | GPT-4 und Clinician-LLaMA (Sprachmodelle trainiert mit klinischen Berichten). |
Datenquelle | Über 40.000 pädiatrische klinische Berichte aus dem öffentlichen Gesundheitssystem von Massachusetts. |
Aufgabe des Modells | Vorhersage, ob ein Patient basierend auf dem Berichtstext eine ASS-Diagnose hat. |
Genauigkeit des Modells | Hoch, selbst wenn Variablen wie Geschlecht oder Alter ausgeblendet wurden. |
Wichtigste Diagnosefaktoren | Repetitive Verhaltensweisen, eingeschränkte Interessen und sensorische/perzeptive Merkmale. |
Weniger relevante Faktoren | Schwierigkeiten in der sozialen Interaktion. |
Zentrale Erkenntnis | In der klinischen Praxis haben beobachtbare Verhaltensweisen mehr Einfluss als bisher angenommen. |
Mögliche Auswirkungen auf Diagnoserichtlinien | Es könnte notwendig sein, das Gewicht bestimmter Kriterien im DSM-5 neu zu bewerten. |
Anwendung von KI in der psychischen Gesundheit | Als Hilfsmittel zur Diagnose und Analyse klinischen Denkens. |
Wie zu erkennen ist, konnten die Sprachmodelle nicht nur die Diagnose von ASS mit hoher Genauigkeit vorhersagen, sondern zeigten auch, dass bestimmte Verhaltensmuster — insbesondere repetitive Verhaltensweisen und eingeschränkte Interessen — in der klinischen Praxis einflussreicher sind, als es die traditionellen Diagnosekriterien vermuten lassen. Dies öffnet die Tür für eine Reflexion darüber, wie diese Kriterien in der Realität angewendet werden.
Implikationen: Müssen wir die Diagnosekriterien für Autismus überdenken?
Diese Ergebnisse werfen eine wichtige Frage auf: Spiegeln die aktuellen Diagnosekriterien wirklich wider, wie Fachleute Patient:innen einschätzen?
Wenn Kliniker:innen systematisch beobachtbaren Verhaltensweisen wie Stereotypien oder eingeschränkten Interessen mehr Bedeutung beimessen, könnte es notwendig sein, die Gewichtung der einzelnen diagnostischen Kategorien in den offiziellen Leitlinien neu zu bewerten.
Darüber hinaus könnte dieser Ansatz Auswirkungen auf die Ausbildung neuer Fachkräfte haben, die davon profitieren würden zu verstehen, wie die Kriterien in der Praxis — jenseits der Theorie — tatsächlich angewendet werden.
Kann künstliche Intelligenz bei der klinischen Diagnose von ASS helfen?
Eines der großen Versprechen der künstlichen Intelligenz im Gesundheitswesen ist ihre Fähigkeit, komplexe Muster in großen Datenmengen zu erkennen. In diesem Fall dienen Sprachmodelle nicht nur als Klassifikationswerkzeuge, sondern auch als Instrumente, um das Unsichtbare sichtbar zu machen: die implizite Logik hinter klinischen Entscheidungen.
Weit davon entfernt, Fachkräfte zu ersetzen, können diese Modelle als hilfreiche Partner fungieren, indem sie eine Zweitmeinung auf der Grundlage tausender vorheriger Fälle liefern und helfen, Verzerrungen oder Inkonsistenzen in Diagnoseprozessen aufzudecken.
Wie könnte NeuronUP zu solchen Studien beitragen?
NeuronUP könnte bedeutend zu solchen Studien beitragen, indem es die Replikation in vielfältigeren und nicht englischsprachigen Bevölkerungen erleichtert, dank seiner internationalen Präsenz. Die Plattform mit Hunderten von kognitiven Aktivitäten würde es ermöglichen, die Analyse klinischer Berichte mit strukturierten Daten zur kognitiven Leistungsfähigkeit zu ergänzen. Dieser Ansatz könnte auch auf andere klinische Zustände wie ADHS oder leichte kognitive Beeinträchtigung angewendet werden, um die Früherkennung und Diagnosesicherheit zu verbessern.
Testen Sie NeuronUP 7 Tage kostenlos
Probieren Sie unsere verschiedenen Übungen, erstellen Sie Sitzungen oder arbeiten Sie remote mithilfe von Online-Sitzungen
Fazit der Studie
Diese Studie stellt einen Meilenstein an der Schnittstelle von künstlicher Intelligenz und psychischer Gesundheit dar. Durch den Einsatz von Sprachmodellen zur Analyse klinischer Berichte haben die Forschenden nicht nur gezeigt, dass die Diagnose von Autismus mit bemerkenswerter Genauigkeit vorhergesagt werden kann, sondern auch aufgedeckt, wie sich die „klinische Intuition“ zusammensetzt, die diese Entscheidungen leitet.
In naher Zukunft könnten solche Werkzeuge in Gesundheitssysteme integriert werden, um die Diagnose zu unterstützen, die Ausbildung von Fachkräften zu verbessern und möglicherweise sogar die Kriterien neu zu definieren, mit denen wir Autismus verstehen. Eines ist klar: Künstliche Intelligenz verändert nicht nur die Technologie, sondern auch unser Verständnis vom menschlichen Geist.
Literaturverzeichnis
- Feng S, Sondhi R, Tu X, Buckley J, Sands A, Comiter A, Zhang H, Gao R, Sragovich S, Mello JD, Fedorenko E, Saxe R, Sontheimer EJ, Sapiro G, O’Reilly UM, McCoy TH, Beam AL. Large language models deconstruct the clinical intuition behind diagnosing autism. Cell. 2024 Mar 21. doi: 10.1016/j.cell.2024.03.004.
Schreiben Sie einen Kommentar