In questo articolo, Antonio Javier Sutil Jiménez parla dello studio “Predizione dell’incidenza della malattia di Alzheimer mediante apprendimento automatico utilizzando dati sanitari amministrativi su larga scala”.
Perché è importante lo studio di previsione dell’Alzheimer con apprendimento automatico?
Il progresso della tecnologia può fornire, talvolta, soluzioni inaspettate a problemi medici. Un esempio è l’utilizzo di dati amministrativi sanitari per creare modelli predittivi del rischio di contrarre la malattia di Alzheimer.
La grande novità del lavoro di Park e collaboratori è stata la valorizzazione di questa enorme quantità di dati che, come descrivono i ricercatori, in molti casi sono ancora da sfruttare. Pertanto, la digitalizzazione delle cartelle cliniche è diventata una risorsa di grande valore per ridurre gli sforzi e il costo della raccolta dei dati.
Nonostante ciò, la sua applicazione a malattie come l’Alzheimer era stata limitata. In parte, questo si è risolto grazie al aumento della capacità di calcolo, che permette di applicare tecniche di apprendimento automatico all’analisi dei dati e creare modelli predittivi rappresentativi della popolazione, disponendo di campioni sufficientemente grandi.
Premessa dello studio
Per la realizzazione dello studio, si parte dalla premessa che l’uso di dati di individui a rischio di sviluppare la malattia di Alzheimer permetterà una migliore rilevazione precoce di casi in stadio preclinico e, di conseguenza, migliorare le strategie terapeutiche.
Per raggiungere questo obiettivo, il gruppo di ricerca ha avuto accesso al database del sistema nazionale sanitario della Corea, che conteneva più di 40.000 cartelle cliniche di persone con più di 65 anni, con una grande quantità di informazioni come anamnesi personale, antecedenti familiari, dati sociodemografici, diagnosi, terapie farmacologiche, ecc.
Che cosa è stato fatto?
Dataset
Per condurre lo studio, è stata presa in esame una coorte del NHIS-NSC (The National Health Insurance Service–National Sample Cohort) della Corea del Sud, che includeva più di un milione di partecipanti, e sono stati seguiti per undici anni (2002-2013).
Il database conteneva informazioni sui servizi sanitari, diagnosi e prescrizioni per ogni individuo, nonché caratteristiche cliniche, che includevano dati demografici, livelli di reddito basati sul salario mensile, codici di malattie e farmaci, valori di laboratorio, profili di salute e storia di malattie personali e familiari. Da questo campione sono stati selezionati 40.736 adulti di età superiore ai 40 anni per questo studio.
Definizione operativa della malattia di Alzheimer
Successivamente è stata creata una definizione operativa della malattia di Alzheimer, basata sull’algoritmo di uno studio canadese precedente.
Questo algoritmo ha ottenuto una sensibilità del 79% e una specificità del 99%, includendo codici di ospedalizzazione, reclami medici e prescrizioni specifiche per l’Alzheimer.
Per migliorare la precisione nella rilevazione della malattia, sono state utilizzate le etichette “definite AD” per i casi con un alto grado di certezza, e “probable AD” per i casi confermati unicamente tramite i codici della CIE-10 (acronimo della Classificazione Internazionale delle Malattie), al fine di minimizzare i falsi negativi. Con queste etichette si è ottenuta una prevalenza della malattia di Alzheimer dell’1,5% per “definite AD” e del 4,9% per “probable AD”.
Analisi
Per l’analisi e il processamento dei dati sono state utilizzate caratteristiche come età e sesso, oltre a 21 variabili provenienti dal database NHIS-NSC, che includevano profili di salute e storia di malattie familiari, insieme a più di 6.000 variabili derivate dai codici CIE-10 e dalle prescrizioni farmacologiche.
Una volta descritte le caratteristiche, queste sono state allineate concentrandosi sull’incidenza della diagnosi per ciascun individuo, secondo i codici CIE-10 e i codici dei farmaci. Ciò ha permesso di eliminare malattie rare e codici di farmaci con bassa frequenza di comparsa. Inoltre, sono stati esclusi gli individui che non avevano nuovi dati sanitari negli ultimi due anni. Il set finale di variabili utilizzate nei modelli includeva 4.894 caratteristiche uniche.
Per effettuare le previsioni a “n” anni nel gruppo con malattia di Alzheimer, sono state utilizzate le finestre temporali comprese tra il 2002 e l’anno di incidenza. Nel gruppo senza la malattia sono stati presi i dati dal 2002 fino al 2010-n.
Infine, prima di implementare il modello, sono stati creati sottoinsiemi di addestramento, validazione e test utilizzando sia un set di dati bilanciato e campionato casualmente, sia un set di dati sbilanciato.
Applicazione di tecniche di machine learning (ML)
Infine è stata effettuata l’analisi dei dati implementando tecniche di apprendimento automatico come random forest, support vector machine con kernel lineare e regressione logistica.
L’addestramento, la validazione e i test sono stati eseguiti utilizzando validazione incrociata stratificata con 5 iterazioni.
La selezione delle caratteristiche è stata eseguita all’interno dei campioni di addestramento utilizzando un metodo basato su soglia di varianza, e la generalizzazione delle prestazioni del modello è stata valutata sui campioni di test.
Per verificare le prestazioni del modello sono state utilizzate metriche abituali, come l’area sotto la curva ROC, la sensibilità e la specificità.
Per maggiori dettagli su come è stato condotto questo studio si consiglia di consultare l’articolo originale.

Iscriviti
alla nostra
Newsletter
Quali sono le principali conclusioni di questo studio di previsione dell’Alzheimer con apprendimento automatico?
Il lavoro evidenzia il potenziale delle tecniche di apprendimento automatico guidate dai dati come uno strumento promettente per prevedere il rischio di demenza di tipo Alzheimer.
Vantaggio principale dello studio
Questo studio presenta un grande vantaggio rispetto ad altri approcci basati su informazioni ottenute da test di neuroimaging o valutazioni neuropsicologiche, poiché è stato condotto utilizzando esclusivamente dati amministrativi.
Mentre altri studi si concentrano su popolazioni che si trovano già in una situazione di rischio clinico reale o che hanno manifestato sufficiente preoccupazione da consultare un professionista sanitario, questo approccio sfrutta la disponibilità di dati amministrativi per identificare i rischi senza necessità di valutazioni cliniche pregresse.
| Definite AD | Probable AD | Non-AD | |
| Nº | 614 | 2026 | 38.710 |
| Edad | 80.7 | 79.2 | 74.5 |
| Sexo (hombre, mujer) | 229, 285 | 733, 1293 | 18.200, 20.510 |
Di seguito vengono mostrate le tabelle comparative tra definite AD e non AD, e probable AD e non AD per gli anni di previsione 0 e 4 con tutti i classificatori usati nello studio.
| Años de predicción | Clasificador | Métricas | |||
| Precisión | AUC | Sensibilidad | Especifidad | ||
| 0 años | Regresión logística | 0.76 | 0.794 | 0.726 | 0.793 |
| Support Vector Model | 0.763 | 0.817 | 0.795 | 0.811 | |
| Random Forest | 0.823 | 0.898 | 0.509 | 0.852 | |
| 4 años | Regresión logística | 0.627 | 0.661 | 0.509 | 0.745 |
| Support Vector Model | 0.646 | 0.685 | 0.538 | 0.754 | |
| Random Forest | 0.663 | 0.725 | 0.621 | 0.705 |
| Años de predicción | Clasificador | Métricas | |||
| Precisión | AUC | Sensibilidad | Especifidad | ||
| 0 años | Regresión logística | 0.763 | 0.783 | 0.689 | 0.783 |
| Support Vector Model | 0.734 | 0.794 | 0.652 | 0.816 | |
| Random Forest | 0.788 | 0.850 | 0.723 | 0.853 | |
| 4 años | Regresión logística | 0.611 | 0.644 | 0.516 | 0.707 |
| Support Vector Model | 0.601 | 0.641 | 0.465 | 0.738 | |
| Random Forest | 0.641 | 0.683 | 0.603 | 0.679 |
Entrambe le tabelle presentate sono semplificazioni delle tabelle dell’articolo originale. In questo caso, si è ridotto il numero di anni a solo due (0 e 4 anni) per gli anni di predizione.
Risultati per la predizione
Un altro punto saliente dell’articolo sono le caratteristiche importanti trovate per la predizione. Queste vengono descritte come correlate in modo positivo o negativo con l’incidenza della malattia di Alzheimer. Alcune delle caratteristiche correlate positivamente con lo sviluppo della malattia includono l’età, la presenza di proteine nelle urine e la prescrizione di zotepina (un antipsicotico).
Al contrario, sono state rilevate anche caratteristiche che si sono correlate negativamente con l’incidenza della malattia, come la riduzione dell’emoglobina, la prescrizione di nicametato citrato (un vasodilatatore), i disturbi degenerativi del sistema nervoso e i disturbi dell’orecchio esterno.
Inoltre, il modello predittivo è stato testato utilizzando esclusivamente le 20 caratteristiche più importanti, e si è riscontrato che il modello aveva una precisione per gli anni 0 e 1 molto simile all’originale.
È possibile il rilevamento basato sui dati amministrativi sanitari?
Pertanto, la conclusione dello studio è che il rilevamento di individui a rischio di Alzheimer basandosi esclusivamente sui dati amministrativi sanitari è possibile. Tuttavia, gli autori lasciano aperta la possibilità che studi futuri in nazioni e sistemi sanitari diversi possano corroborare questi risultati. La loro replicazione sarebbe un traguardo che permetterebbe una rilevazione più precoce e accurata delle persone a rischio.
Prova NeuronUP gratis per 7 giorni
Potrai collaborare con le nostre attività, progettare sedute o fare riabilitazione a distanza.
Dove NeuronUP potrebbe contribuire in uno studio come questo?
NeuronUP ha esperienza nel campo scientifico in due aree principali:
- Fornendo supporto a gruppi di ricerca interessati alla tecnologia,
- realizzando i propri lavori per essere pubblicati su riviste di alto impatto scientifico.
In particolare, per studi con caratteristiche simili a quelli esaminati in questo articolo, riteniamo che, avendo accesso a grandi insiemi di dati come quelli descritti, NeuronUP disponga del team e dell’esperienza necessari per:
- Da un lato, implementare tecniche sofisticate di apprendimento automatico, come quelle menzionate nell’articolo;
- e, dall’altro, nella progettazione dello studio. Cioè, dispone di un team qualificato per formulare domande basate sulla letteratura scientifica esistente, nonché per condurre studi “guidati dai dati” o orientati dai dati.
La particolarità degli studi guidati dai dati è che sono incentrati sull’analisi e l’interpretazione dei dati. Questa prospettiva si basa sull’uso di grandi quantità di dati per scoprire pattern e tendenze nascoste.
L’uso di nuove tecnologie e di avanzate tecniche di analisi, necessarie per lavorare con questi grandi insiemi di dati, era difficilmente accessibile alla maggior parte dei ricercatori fino a pochi anni fa. Pertanto, questa prospettiva è importante e necessaria quando si dispone di grandi volumi di dati, poiché possono offrire conclusioni nuove che non si raggiungerebbero utilizzando metodi basati esclusivamente sulla teoria.
Bibliografia
- Park, J.H., Cho, H.E., Kim, J.H. et al. Machine learning prediction of incidence of Alzheimer’s disease using large-scale administrative health data. npj Digit. Med. 3, 46 (2020). https://doi.org/10.1038/s41746-020-0256-0







Consumo di alcol durante la gravidanza: effetti sul cervello fetale e rischio di disabilità intellettiva
Lascia un commento