Che cosa studia la predizione dell'Alzheimer con apprendimento automatico?

Studio che valuta l'uso di tecniche di apprendimento automatico su grandi dati amministrativi per prevedere il rischio di malattia di Alzheimer, basato su coorte nazionale coreana e modelli predittivi rappresentativi della popolazione.

Quali dati amministrativi sanitari sono stati utilizzati?

Sono stati usati dati del NHIS-NSC della Corea: cartelle cliniche amministrative, diagnosi, prescrizioni, dati demografici, valori di laboratorio e storia clinica, con oltre 40.000 pazienti selezionati.

Quali tecniche di apprendimento automatico sono state impiegate?

Random Forest, Support Vector Machine con kernel lineare e regressione logistica, addestrati con validazione incrociata stratificata e selezione delle caratteristiche basata su soglia di varianza.

Quanto è accurata la predizione dell'Alzheimer con questi modelli?

I modelli mostrano AUC tra circa 0,64 e 0,90 a seconda dell'anno di predizione e del classificatore; precisione, sensibilità e specificità variano, con prestazioni migliori a previsione immediata (0 anni).

Quali sono le caratteristiche predittive principali per l'Alzheimer?

Caratteristiche correlate positivamente: età, proteine urinarie, prescrizione di zotepina; correlate negativamente: riduzione dell'emoglobina, nicametato citrato, disturbi degenerativi del sistema nervoso e dell'orecchio esterno.

È possibile il rilevamento precoce dell'Alzheimer con dati amministrativi?

Lo studio conclude che il rilevamento precoce basato solo su dati amministrativi è possibile, ma richiede replicazione in altri paesi e sistemi sanitari per confermare generalizzabilità e affidabilità.

Predizione dell’incidenza dell’Alzheimer grazie all’apprendimento automatico

In questo articolo, Antonio Javier Sutil Jiménez parla dello studio “Predizione dell’incidenza della malattia di Alzheimer mediante apprendimento automatico utilizzando dati sanitari amministrativi su larga scala”.

Perché è importante lo studio di previsione dell’Alzheimer con apprendimento automatico?

Il progresso della tecnologia può fornire, talvolta, soluzioni inaspettate a problemi medici. Un esempio è l’utilizzo di dati amministrativi sanitari per creare modelli predittivi del rischio di contrarre la malattia di Alzheimer.

La grande novità del lavoro di Park e collaboratori è stata la valorizzazione di questa enorme quantità di dati che, come descrivono i ricercatori, in molti casi sono ancora da sfruttare. Pertanto, la digitalizzazione delle cartelle cliniche è diventata una risorsa di grande valore per ridurre gli sforzi e il costo della raccolta dei dati.

Nonostante ciò, la sua applicazione a malattie come l’Alzheimer era stata limitata. In parte, questo si è risolto grazie al aumento della capacità di calcolo, che permette di applicare tecniche di apprendimento automatico all’analisi dei dati e creare modelli predittivi rappresentativi della popolazione, disponendo di campioni sufficientemente grandi.

Premessa dello studio

Per la realizzazione dello studio, si parte dalla premessa che l’uso di dati di individui a rischio di sviluppare la malattia di Alzheimer permetterà una migliore rilevazione precoce di casi in stadio preclinico e, di conseguenza, migliorare le strategie terapeutiche.

Per raggiungere questo obiettivo, il gruppo di ricerca ha avuto accesso al database del sistema nazionale sanitario della Corea, che conteneva più di 40.000 cartelle cliniche di persone con più di 65 anni, con una grande quantità di informazioni come anamnesi personale, antecedenti familiari, dati sociodemografici, diagnosi, terapie farmacologiche, ecc.

Che cosa è stato fatto?

Dataset

Per condurre lo studio, è stata presa in esame una coorte del NHIS-NSC (The National Health Insurance Service–National Sample Cohort) della Corea del Sud, che includeva più di un milione di partecipanti, e sono stati seguiti per undici anni (2002-2013).

Il database conteneva informazioni sui servizi sanitari, diagnosi e prescrizioni per ogni individuo, nonché caratteristiche cliniche, che includevano dati demografici, livelli di reddito basati sul salario mensile, codici di malattie e farmaci, valori di laboratorio, profili di salute e storia di malattie personali e familiari. Da questo campione sono stati selezionati 40.736 adulti di età superiore ai 40 anni per questo studio.

Definizione operativa della malattia di Alzheimer

Successivamente è stata creata una definizione operativa della malattia di Alzheimer, basata sull’algoritmo di uno studio canadese precedente.

Questo algoritmo ha ottenuto una sensibilità del 79% e una specificità del 99%, includendo codici di ospedalizzazione, reclami medici e prescrizioni specifiche per l’Alzheimer.

Per migliorare la precisione nella rilevazione della malattia, sono state utilizzate le etichette “definite AD” per i casi con un alto grado di certezza, e “probable AD” per i casi confermati unicamente tramite i codici della CIE-10 (acronimo della Classificazione Internazionale delle Malattie), al fine di minimizzare i falsi negativi. Con queste etichette si è ottenuta una prevalenza della malattia di Alzheimer dell’1,5% per “definite AD” e del 4,9% per “probable AD”.

Analisi

Per l’analisi e il processamento dei dati sono state utilizzate caratteristiche come età e sesso, oltre a 21 variabili provenienti dal database NHIS-NSC, che includevano profili di salute e storia di malattie familiari, insieme a più di 6.000 variabili derivate dai codici CIE-10 e dalle prescrizioni farmacologiche.

Una volta descritte le caratteristiche, queste sono state allineate concentrandosi sull’incidenza della diagnosi per ciascun individuo, secondo i codici CIE-10 e i codici dei farmaci. Ciò ha permesso di eliminare malattie rare e codici di farmaci con bassa frequenza di comparsa. Inoltre, sono stati esclusi gli individui che non avevano nuovi dati sanitari negli ultimi due anni. Il set finale di variabili utilizzate nei modelli includeva 4.894 caratteristiche uniche.

Per effettuare le previsioni a “n” anni nel gruppo con malattia di Alzheimer, sono state utilizzate le finestre temporali comprese tra il 2002 e l’anno di incidenza. Nel gruppo senza la malattia sono stati presi i dati dal 2002 fino al 2010-n.

Infine, prima di implementare il modello, sono stati creati sottoinsiemi di addestramento, validazione e test utilizzando sia un set di dati bilanciato e campionato casualmente, sia un set di dati sbilanciato.

Applicazione di tecniche di machine learning (ML)

Infine è stata effettuata l’analisi dei dati implementando tecniche di apprendimento automatico come random forest, support vector machine con kernel lineare e regressione logistica.

L’addestramento, la validazione e i test sono stati eseguiti utilizzando validazione incrociata stratificata con 5 iterazioni.

La selezione delle caratteristiche è stata eseguita all’interno dei campioni di addestramento utilizzando un metodo basato su soglia di varianza, e la generalizzazione delle prestazioni del modello è stata valutata sui campioni di test.

Per verificare le prestazioni del modello sono state utilizzate metriche abituali, come l’area sotto la curva ROC, la sensibilità e la specificità.

Per maggiori dettagli su come è stato condotto questo studio si consiglia di consultare l’articolo originale.

Iscriviti
alla nostra
Newsletter

Quali sono le principali conclusioni di questo studio di previsione dell’Alzheimer con apprendimento automatico?

Il lavoro evidenzia il potenziale delle tecniche di apprendimento automatico guidate dai dati come uno strumento promettente per prevedere il rischio di demenza di tipo Alzheimer.

Vantaggio principale dello studio

Questo studio presenta un grande vantaggio rispetto ad altri approcci basati su informazioni ottenute da test di neuroimaging o valutazioni neuropsicologiche, poiché è stato condotto utilizzando esclusivamente dati amministrativi.

Mentre altri studi si concentrano su popolazioni che si trovano già in una situazione di rischio clinico reale o che hanno manifestato sufficiente preoccupazione da consultare un professionista sanitario, questo approccio sfrutta la disponibilità di dati amministrativi per identificare i rischi senza necessità di valutazioni cliniche pregresse.

	Definite AD	Probable AD	Non-AD
Nº	614	2026	38.710
Edad	80.7	79.2	74.5
Sexo (hombre, mujer)	229, 285	733, 1293	18.200, 20.510

Tabella1. Dati semplificati delle caratteristiche del campione. Per maggiore precisione dei dati e un numero maggiore di caratteristiche consultare la tabella 1 del lavoro originale.

Di seguito vengono mostrate le tabelle comparative tra definite AD e non AD, e probable AD e non AD per gli anni di previsione 0 e 4 con tutti i classificatori usati nello studio.

Años de predicción	Clasificador	Métricas
		Precisión	AUC	Sensibilidad	Especifidad
0 años	Regresión logística	0.76	0.794	0.726	0.793
	Support Vector Model	0.763	0.817	0.795	0.811
	Random Forest	0.823	0.898	0.509	0.852
4 años	Regresión logística	0.627	0.661	0.509	0.745
	Support Vector Model	0.646	0.685	0.538	0.754
	Random Forest	0.663	0.725	0.621	0.705

Definite AD vs Non AD.

Años de predicción	Clasificador	Métricas
		Precisión	AUC	Sensibilidad	Especifidad
0 años	Regresión logística	0.763	0.783	0.689	0.783
	Support Vector Model	0.734	0.794	0.652	0.816
	Random Forest	0.788	0.850	0.723	0.853
4 años	Regresión logística	0.611	0.644	0.516	0.707
	Support Vector Model	0.601	0.641	0.465	0.738
	Random Forest	0.641	0.683	0.603	0.679

Probable AD vs non AD.

Entrambe le tabelle presentate sono semplificazioni delle tabelle dell’articolo originale. In questo caso, si è ridotto il numero di anni a solo due (0 e 4 anni) per gli anni di predizione.

Risultati per la predizione

Un altro punto saliente dell’articolo sono le caratteristiche importanti trovate per la predizione. Queste vengono descritte come correlate in modo positivo o negativo con l’incidenza della malattia di Alzheimer. Alcune delle caratteristiche correlate positivamente con lo sviluppo della malattia includono l’età, la presenza di proteine nelle urine e la prescrizione di zotepina (un antipsicotico).

Al contrario, sono state rilevate anche caratteristiche che si sono correlate negativamente con l’incidenza della malattia, come la riduzione dell’emoglobina, la prescrizione di nicametato citrato (un vasodilatatore), i disturbi degenerativi del sistema nervoso e i disturbi dell’orecchio esterno.

Inoltre, il modello predittivo è stato testato utilizzando esclusivamente le 20 caratteristiche più importanti, e si è riscontrato che il modello aveva una precisione per gli anni 0 e 1 molto simile all’originale.

È possibile il rilevamento basato sui dati amministrativi sanitari?

Pertanto, la conclusione dello studio è che il rilevamento di individui a rischio di Alzheimer basandosi esclusivamente sui dati amministrativi sanitari è possibile. Tuttavia, gli autori lasciano aperta la possibilità che studi futuri in nazioni e sistemi sanitari diversi possano corroborare questi risultati. La loro replicazione sarebbe un traguardo che permetterebbe una rilevazione più precoce e accurata delle persone a rischio.

Prova NeuronUP gratis per 7 giorni

Potrai collaborare con le nostre attività, progettare sedute o fare riabilitazione a distanza.

Comincia la tua prova

Dove NeuronUP potrebbe contribuire in uno studio come questo?

NeuronUP ha esperienza nel campo scientifico in due aree principali:

Fornendo supporto a gruppi di ricerca interessati alla tecnologia,
realizzando i propri lavori per essere pubblicati su riviste di alto impatto scientifico.

In particolare, per studi con caratteristiche simili a quelli esaminati in questo articolo, riteniamo che, avendo accesso a grandi insiemi di dati come quelli descritti, NeuronUP disponga del team e dell’esperienza necessari per:

Da un lato, implementare tecniche sofisticate di apprendimento automatico, come quelle menzionate nell’articolo;
e, dall’altro, nella progettazione dello studio. Cioè, dispone di un team qualificato per formulare domande basate sulla letteratura scientifica esistente, nonché per condurre studi “guidati dai dati” o orientati dai dati.

La particolarità degli studi guidati dai dati è che sono incentrati sull’analisi e l’interpretazione dei dati. Questa prospettiva si basa sull’uso di grandi quantità di dati per scoprire pattern e tendenze nascoste.

L’uso di nuove tecnologie e di avanzate tecniche di analisi, necessarie per lavorare con questi grandi insiemi di dati, era difficilmente accessibile alla maggior parte dei ricercatori fino a pochi anni fa. Pertanto, questa prospettiva è importante e necessaria quando si dispone di grandi volumi di dati, poiché possono offrire conclusioni nuove che non si raggiungerebbero utilizzando metodi basati esclusivamente sulla teoria.

Bibliografia

Park, J.H., Cho, H.E., Kim, J.H. et al. Machine learning prediction of incidence of Alzheimer’s disease using large-scale administrative health data. npj Digit. Med. 3, 46 (2020). https://doi.org/10.1038/s41746-020-0256-0