In diesem Artikel spricht Antonio Javier Sutil Jiménez über die Studie „Vorhersage der Inzidenz der Alzheimer-Krankheit mittels maschinellem Lernen unter Verwendung groß angelegter Verwaltungsdaten aus dem Gesundheitswesen“.
Warum ist die Studie zur Vorhersage von Alzheimer mit maschinellem Lernen wichtig?
Der technologische Fortschritt kann manchmal unerwartete Lösungen für medizinische Probleme bieten. Ein Beispiel dafür ist die Verwendung von administrativen Gesundheitsdaten zur Erstellung prädiktiver Modelle für das Risiko, an Alzheimer zu erkranken.
Die große Neuheit der Arbeit von Park und seinen Mitarbeitern lag in der Nutzung dieser massiven Menge an Daten, die, wie die Forscher beschreiben, in vielen Fällen noch nicht vollständig ausgeschöpft sind. Die Digitalisierung der Krankenakten hat sich somit zu einer wertvollen Ressource entwickelt, um den Aufwand und die Kosten der Datenerhebung zu reduzieren.
Dennoch war die Anwendung auf Krankheiten wie Alzheimer begrenzt. Teilweise wurde dies dank der gestiegenen Rechenkapazität gelöst, die es ermöglicht, maschinelles Lernen auf die Datenanalyse anzuwenden und prädiktive Modelle zu erstellen, die aufgrund ausreichend großer Stichproben repräsentativ für die Bevölkerung sind.
Prämisse der Studie
Die Studie basiert auf der Prämisse, dass die Verwendung von Daten von Personen, die ein Risiko für die Alzheimer-Krankheit aufweisen, eine frühere Erkennung von Fällen im präklinischen Stadium ermöglichen und damit therapeutische Strategien verbessern kann.
Um dieses Ziel zu erreichen, erhielt die Forschergruppe Zugang zur Datenbank des koreanischen Gesundheitssystems, die über 40.000 Gesundheitsakten von Personen über 65 Jahren mit einer Vielzahl von Informationen wie persönliche Anamnese, familiäre Vorgeschichte, soziodemografische Daten, Diagnosen, Medikation usw. enthielt.
Methodologie
Datensatz
Für die Durchführung der Studie wurde eine Kohorte des NHIS-NSC (The National Health Insurance Service–National Sample Cohort) aus Südkorea ausgewählt, die über eine Million Teilnehmer umfasste und über elf Jahre (2002 bis 2013) beobachtet wurde.
Die Datenbank enthielt Informationen über die Gesundheitsdienste, Diagnosen und Verschreibungen jeder Person sowie klinische Merkmale, darunter demografische Daten, Einkommensniveau basierend auf dem Monatsgehalt, Krankheits- und Medikamentencodes, Laborwerte, Gesundheitsprofile und persönliche und familiäre Krankengeschichte. Aus dieser Stichprobe wurden 40.736 Erwachsene über 40 Jahre für diese Studie ausgewählt.
Operationale Definition der Alzheimer-Krankheit
Es wurde eine operative Definition der Alzheimer-Krankheit erstellt, die auf dem Algorithmus einer früheren kanadischen Studie basierte.
Dieser Algorithmus erreichte eine Sensitivität von 79 % und eine Spezifität von 99 %, indem er Krankenhauscodes, medizinische Forderungen und spezifische Rezepte für Alzheimer einbezog.
Um die Genauigkeit bei der Erkennung der Krankheit zu verbessern, wurden die Etiketten „definite AD“ für Fälle mit einem hohen Maß an Sicherheit und „probable AD“ für Fälle verwendet, die nur anhand der ICD-10-Codes (International Classification of Diseases) bestätigt wurden, um falsch negative Ergebnisse zu minimieren. Mit diesen Etiketten betrug die Prävalenz der Alzheimer-Krankheit 1,5 % für „definite AD“ und 4,9 % für „probable AD“.
Analyse
Für die Analyse und Verarbeitung der Daten wurden Merkmale wie Alter und Geschlecht verwendet, zusammen mit 21 Variablen aus der NHIS-NSC-Datenbank, die Gesundheitsprofile und familiäre Krankheitsgeschichte sowie über 6.000 aus ICD-10-Codes und Medikamentencodes abgeleitete Variablen umfassten.
Nach der Beschreibung der Merkmale wurden diese auf die Inzidenz der Diagnose für jede Person ausgerichtet, basierend auf ICD-10-Codes und Medikamentencodes. Dies ermöglichte es, seltene Krankheiten und Medikamentencodes mit geringer Häufigkeit auszuschließen. Außerdem wurden Personen ohne neue Gesundheitsdaten in den letzten zwei Jahren ausgeschlossen. Der endgültige Satz an in den Modellen verwendeten Variablen umfasste 4.894 einzigartige Merkmale.
Um die Vorhersagen für „n“ Jahre in der Gruppe mit Alzheimer-Krankheit zu erstellen, wurden Zeitfenster von 2002 bis zum Inzidenzjahr genutzt. In der Gruppe ohne Krankheit wurden die Daten von 2002 bis 2010-n herangezogen.
Schließlich wurden vor der Implementierung des Modells Trainings-, Validierungs- und Testuntergruppen erstellt, indem sowohl ein ausgewogenes und zufällig gesampeltes als auch ein unausgewogenes Datenset verwendet wurde.
Anwendung von Machine-Learning-Techniken (ML)
Schließlich wurde die Datenanalyse durch den Einsatz von Machine-Learning-Techniken wie Random Forest, Support Vector Machine mit linearem Kernel und logistischer Regression durchgeführt.
Das Training, die Validierung und die Tests wurden unter Verwendung einer geschichteten Kreuzvalidierung mit 5 Iterationen durchgeführt.
Die Merkmalsauswahl wurde innerhalb der Trainingsstichproben unter Anwendung einer Varianzschwellenmethode durchgeführt, und die Generalisierbarkeit der Modellleistung wurde anhand der Teststichproben bewertet.
Zur Überprüfung der Modellleistung wurden gängige Kennzahlen wie die Fläche unter der ROC-Kurve, Sensitivität und Spezifität verwendet.
Für detailliertere Informationen zur Durchführung dieser Studie wird empfohlen, den Originalartikel zu lesen.
Was sind die Hauptschlussfolgerungen dieser Studie zur Vorhersage von Alzheimer mit Machine Learning?
Die Studie hebt das Potenzial datengetriebener Techniken des maschinellen Lernens als vielversprechendes Werkzeug zur Vorhersage des Demenzrisikos vom Typ Alzheimer hervor.
Hauptvorteil der Studie
Diese Studie bietet einen erheblichen Vorteil gegenüber anderen Ansätzen, die auf Informationen aus neuroimaging-basierten Tests oder neuropsychologischen Bewertungen beruhen, da sie ausschließlich administrative Daten verwendet.
Während sich andere Studien auf Populationen konzentrieren, die bereits in einer echten klinischen Risikosituation sind oder genügend Besorgnis gezeigt haben, um einen Gesundheitsfachmann aufzusuchen, nutzt dieser Ansatz die Verfügbarkeit administrativer Daten, um Risiken ohne vorherige klinische Bewertungen zu identifizieren.
Definitives AD | Wahrscheinliches AD | Nicht-AD | |
Anzahl der Fälle | 614 | 2026 | 38.710 |
Durchschnittsalter | 80.7 | 79.2 | 74.5 |
Geschlecht (Mann, Frau) | 229, 285 | 733, 1293 | 18.200, 20.510 |
Im Folgenden werden die Vergleichstabellen zwischen Definitives AD und Nicht-AD sowie Wahrscheinliches AD und Nicht-AD für die Prognosejahre 0 und 4 mit allen im Studium verwendeten Klassifikatoren dargestellt.
Prognosejahre | Klassifikator | Metriken | |||
Präzision | AUC | Sensitivität | Spezifität | ||
0 Jahre | Logistische Regression | 0.76 | 0.794 | 0.726 | 0.793 |
Support Vector Machine | 0.763 | 0.817 | 0.795 | 0.811 | |
Random Forest | 0.823 | 0.898 | 0.509 | 0.852 | |
4 Jahre | Logistische Regression | 0.627 | 0.661 | 0.509 | 0.745 |
Support Vector Model | 0.646 | 0.685 | 0.538 | 0.754 | |
Random Forest | 0.663 | 0.725 | 0.621 | 0.705 |
Prognosejahre | Klassifikator | Metriken | |||
Präzision | AUC | Sensitivität | Spezifität | ||
0 Jahre | Logistische Regression | 0.763 | 0.783 | 0.689 | 0.783 |
Support Vector Machine | 0.734 | 0.794 | 0.652 | 0.816 | |
Random Forest | 0.788 | 0.850 | 0.723 | 0.853 | |
4 Jahre | Logistische Regression | 0.611 | 0.644 | 0.516 | 0.707 |
Support Vector Model | 0.601 | 0.641 | 0.465 | 0.738 | |
Random Forest | 0.641 | 0.683 | 0.603 | 0.679 |
Die hier vorgestellten Tabellen sind vereinfachte Darstellungen der Tabellen aus dem Originalartikel, in denen die Vorhersagejahre auf zwei (0 und 4 Jahre) beschränkt wurden.
Erkenntnisse für die Vorhersage
Ein weiterer wichtiger Punkt des Artikels sind die relevanten Merkmale, die für die Vorhersage ermittelt wurden. Diese Merkmale stehen positiv oder negativ im Zusammenhang mit dem Auftreten der Alzheimer-Krankheit. Einige Merkmale, die positiv mit der Entwicklung der Krankheit verbunden sind, umfassen das Alter, das Vorhandensein von Protein im Urin und die Verschreibung von Zotepin (einem Antipsychotikum).
Andererseits wurden auch Merkmale identifiziert, die negativ mit dem Auftreten der Krankheit korreliert sind, wie z. B. eine verringerte Hämoglobin-Konzentration, die Verschreibung von Nicametat-Citrat (ein Vasodilatator), degenerative Erkrankungen des Nervensystems und Erkrankungen des äußeren Ohrs.
Darüber hinaus wurde das Vorhersagemodell nur mit den 20 wichtigsten Merkmalen getestet, wobei festgestellt wurde, dass die Genauigkeit für die Jahre 0 und 1 der des ursprünglichen Modells sehr ähnlich war.
Ist die auf Verwaltungsdaten basierende Erkennung möglich?
Die Schlussfolgerung der Studie lautet daher, dass es möglich ist, Personen mit einem Risiko für Alzheimer nur auf Grundlage administrativer Gesundheitsdaten zu identifizieren. Die Autoren lassen jedoch die Möglichkeit offen, dass zukünftige Studien in verschiedenen Ländern und Gesundheitssystemen diese Ergebnisse bestätigen könnten. Eine Replikation dieser Methode könnte eine frühere und genauere Identifizierung von Risikopersonen ermöglichen.
Wie könnte NeuronUP zu einer solchen Studie beitragen?
NeuronUP verfügt in zwei Hauptbereichen über wissenschaftliche Erfahrung:
- Unterstützung von Forschungsgruppen, die an Technologie interessiert sind,
- Eigene wissenschaftliche Arbeiten für Veröffentlichungen in renommierten Zeitschriften.
Insbesondere für Studien mit ähnlichen Merkmalen wie im Artikel beschrieben, glauben wir, dass NeuronUP über das Team und die Erfahrung verfügt, um mit großen Datensätzen wie den beschriebenen zu arbeiten:
- Zum einen kann NeuronUP fortschrittliche maschinelle Lerntechniken anwenden, wie sie im Artikel beschrieben wurden;
- Zum anderen im Bereich der Studiendesign-Gestaltung. NeuronUP verfügt über ein Team, das auf Basis der vorhandenen wissenschaftlichen Literatur Fragen formulieren und „datengetriebene“ Studien durchführen kann.
Das Besondere an datengetriebenen Studien ist, dass sie sich auf die Analyse und Interpretation von Daten konzentrieren. Dieser Ansatz beruht auf der Nutzung großer Datenmengen, um verborgene Muster und Trends zu entdecken.
Der Einsatz neuer Technologien und fortschrittlicher Analysetechniken, die für die Arbeit mit diesen großen Datensätzen erforderlich sind, war bis vor wenigen Jahren für die meisten Forscher kaum zugänglich. Daher ist dieser Ansatz wichtig und notwendig, wenn große Datenmengen zur Verfügung stehen, da er neue Schlussfolgerungen ermöglichen kann, die mit rein theoretischen Methoden nicht erreicht würden.
Literaturverzeichnis
- Park, J.H., Cho, H.E., Kim, J.H. et al. Machine learning prediction of incidence of Alzheimer’s disease using large-scale administrative health data. npj Digit. Med. 3, 46 (2020). https://doi.org/10.1038/s41746-020-0256-0
Schreiben Sie einen Kommentar