Neste artigo, Antonio Javier Sutil Jiménez fala sobre o estudo “Predição da incidência da doença de Alzheimer por meio de machine learning utilizando dados administrativos de saúde em larga escala”.
Por que é importante o estudo de predição de Alzheimer com machine learning?
O avanço da tecnologia pode oferecer, em algumas ocasiões, soluções inesperadas para problemas médicos. Um exemplo disso é o uso de dados administrativos de saúde para criar modelos preditivos de risco de desenvolver a doença de Alzheimer.
A grande inovação do trabalho de Park e colaboradores foi o aproveitamento dessa quantidade massiva de dados que, como descrevem os pesquisadores, ainda está em muitos casos por ser explorada. Portanto, a digitalização dos prontuários clínicos tornou-se um recurso de grande valor para reduzir esforços e custos na coleta de dados.
Apesar disso, sua aplicação a doenças como o Alzheimer havia sido limitada. Em parte, isso foi solucionado graças ao aumento da capacidade de computação, que permite aplicar técnicas de machine learning à análise dos dados e criar modelos preditivos representativos da população, contando com amostras suficientemente grandes.
Premissa do estudo
Para a realização do estudo, parte-se da premissa de que o uso de dados de indivíduos em risco de desenvolver a doença de Alzheimer permitirá uma melhor detecção precoce de casos em estágio pré-clínico e, portanto, melhorar as estratégias terapêuticas.
Para alcançar esse objetivo, o grupo de pesquisadores teve acesso ao banco de dados do sistema nacional de saúde da Coreia, que continha mais de 40.000 prontuários de saúde de pessoas com mais de 65 anos, com grande quantidade de informações como histórico pessoal, antecedentes familiares, dados sociodemográficos, diagnósticos, medicações, etc.
O que foi feito?
Conjunto de dados
Para conduzir o estudo, foi selecionada uma coorte do NHIS-NSC (The National Health Insurance Service–National Sample Cohort) da Coreia do Sul, que incluía mais de um milhão de participantes, acompanhados por onze anos (2002 a 2013).
O banco de dados continha informações sobre os serviços de saúde, diagnósticos e prescrições de cada indivíduo, bem como características clínicas, que incluíam dados demográficos, níveis de renda com base no salário mensal, códigos de doenças e medicamentos, valores laboratoriais, perfis de saúde e histórico de doenças pessoais e familiares. Deste conjunto, foram selecionados 40.736 adultos com mais de 40 anos para este estudo.
Definição operacional da doença de Alzheimer
Em seguida, foi criada uma definição operacional da doença de Alzheimer, baseada no algoritmo de um estudo canadense anterior.
Esse algoritmo obteve uma sensibilidade de 79% e especificidade de 99%, incluindo códigos de hospitalização, demandas médicas e receitas específicas para Alzheimer.
Para aprimorar a precisão na detecção da doença, foram utilizadas as etiquetas “definite AD” para os casos em que se tinha alto grau de certeza, e “probable AD” para os casos confirmados apenas por meio dos códigos da CID-10 (acrônimo de Classificação Internacional de Doenças), com o objetivo de minimizar falsos negativos. Com essas etiquetas, obteve-se uma prevalência de Alzheimer de 1,5% para “definite AD” e de 4,9% para “probable AD”.
Análise
Para a análise e o processamento dos dados, foram utilizadas características como idade e sexo, além de 21 variáveis provenientes do banco de dados NHIS-NSC, que incluíam perfis de saúde e histórico de doenças familiares, juntamente com mais de 6.000 variáveis derivadas dos códigos CID-10 e de medicações.
Uma vez descritas as características, elas foram alinhadas com foco na incidência do diagnóstico para cada indivíduo, de acordo com os códigos CID-10 e os códigos de medicação. Isso permitiu eliminar doenças raras e códigos de medicação com baixa frequência de ocorrência. Além disso, foram excluídos indivíduos sem novos dados de saúde nos dois últimos anos. O conjunto final de variáveis utilizadas nos modelos incluiu 4.894 características únicas.
Para realizar as predições para “n” anos no grupo com doença de Alzheimer, foram usadas janelas de tempo compreendidas entre 2002 e o ano da incidência. No grupo sem a doença, foram considerados os dados de 2002 até 2010-n.
Por fim, antes de implementar o modelo, foram criados subconjuntos de treinamento, validação e teste usando tanto um conjunto de dados balanceado e amostrado aleatoriamente quanto um conjunto não balanceado.
Aplicação de técnicas de machine learning (ML)
Finalmente, foi realizada a análise dos dados implementando técnicas de machine learning como random forest, support vector machine com kernel linear e regressão logística.
O treinamento, a validação e os testes foram realizados usando validação cruzada estratificada com 5 iterações.
A seleção de características foi feita dentro das amostras de treinamento usando um método de limite de variância, e a generalização do desempenho do modelo foi avaliada nas amostras de teste.
Para verificar o desempenho do modelo, foram usadas métricas habituais, como área sob a curva ROC, sensibilidade e especificidade.
Para mais detalhes sobre como este estudo foi realizado, recomenda-se consultar o artigo original.

Inscreva-se
na nossa
Newsletter
Quais são as principais conclusões deste estudo de predição de Alzheimer com machine learning?
O trabalho destaca o potencial das técnicas de aprendizado de máquina orientadas por dados como uma ferramenta promissora para prever o risco de demência tipo Alzheimer.
Vantagem principal do estudo
Este estudo apresenta uma grande vantagem em comparação com outras abordagens baseadas em informações obtidas de exames de neuroimagem ou avaliações neuropsicológicas, pois foi realizado exclusivamente com dados administrativos.
Enquanto outros estudos se concentram em populações que já estão em situação de risco clínico real ou que demonstraram preocupação suficiente para procurar um profissional de saúde, esta abordagem aproveita a disponibilidade de dados administrativos para identificar riscos sem necessidade de avaliações clínicas prévias.
| Definite AD | Probable AD | Non-AD | |
| Nº | 614 | 2026 | 38.710 |
| Idade | 80.7 | 79.2 | 74.5 |
| Sexo (homem, mulher) | 229, 285 | 733, 1293 | 18.200, 20.510 |
A seguir, são exibidas as tabelas comparativas entre definite AD e non AD, e probable AD e non AD para os anos de predição 0 e 4 com todos os classificadores usados no estudo.
| Años de predicción | Clasificador | Métricas | |||
| Precisión | AUC | Sensibilidad | Especifidad | ||
| 0 años | Regresión logística | 0.76 | 0.794 | 0.726 | 0.793 |
| Support Vector Model | 0.763 | 0.817 | 0.795 | 0.811 | |
| Random Forest | 0.823 | 0.898 | 0.509 | 0.852 | |
| 4 años | Regresión logística | 0.627 | 0.661 | 0.509 | 0.745 |
| Support Vector Model | 0.646 | 0.685 | 0.538 | 0.754 | |
| Random Forest | 0.663 | 0.725 | 0.621 | 0.705 |
| Años de predicción | Clasificador | Métricas | |||
| Precisión | AUC | Sensibilidad | Especifidad | ||
| 0 años | Regresión logística | 0.763 | 0.783 | 0.689 | 0.783 |
| Support Vector Model | 0.734 | 0.794 | 0.652 | 0.816 | |
| Random Forest | 0.788 | 0.850 | 0.723 | 0.853 | |
| 4 años | Regresión logística | 0.611 | 0.644 | 0.516 | 0.707 |
| Support Vector Model | 0.601 | 0.641 | 0.465 | 0.738 | |
| Random Forest | 0.641 | 0.683 | 0.603 | 0.679 |
Ambas as tabelas apresentadas são simplificações das tabelas do artigo original. Neste caso, reduziu-se o número de anos para apenas dois (0 e 4 anos) para os anos de predição.
Descobertas para a predição
Outro ponto destacado do artigo são as características importantes encontradas para a predição. Elas são descritas como relacionadas de forma positiva ou negativa com a incidência da doença de Alzheimer. Algumas das características relacionadas positivamente ao desenvolvimento da doença incluem idade, presença de proteína na urina e prescrição de zotepina (um antipsicótico).
Por outro lado, também foram detectadas características que se relacionaram negativamente com a incidência da doença, como diminuição de hemoglobina, prescrição de nicametato citrato (um vasodilatador), distúrbios degenerativos do sistema nervoso e distúrbios do ouvido externo.
Além disso, o modelo preditivo foi testado usando apenas as 20 características mais importantes, e verificou-se que o modelo tinha precisão para os anos 0 e 1 muito semelhante ao original.
É possível a detecção baseada em dados administrativos de saúde?
Portanto, a conclusão do estudo é que a detecção de indivíduos com risco de Alzheimer apenas com base em dados administrativos de saúde é possível. No entanto, os autores deixam em aberto a possibilidade de que estudos futuros em diferentes países e sistemas de saúde possam corroborar esses resultados. Sua replicação seria um marco que permitiria uma detecção mais precoce e precisa de pessoas em risco.
Lançamos NeuronUP Assessment!
O novo produto de Avaliação da NeuronUP.
Solicite acesso para testar gratuitamente por tempo limitado.
Onde a NeuronUP poderia contribuir em um estudo como este?
NeuronUP tem experiência no âmbito científico em duas áreas principais:
- Oferecendo apoio a grupos de pesquisa interessados em tecnologia,
- realizando seus próprios trabalhos para serem publicados em periódicos de alto impacto científico.
Especificamente, para estudos com características semelhantes aos revisados neste artigo, acreditamos que, tendo acesso a grandes conjuntos de dados como os descritos, a NeuronUP conta com a equipe e a experiência necessárias para:
- Por um lado, implementar técnicas sofisticadas de aprendizado de máquina, como as mencionadas no artigo;
- e, por outro lado, no desenho do estudo. Ou seja, dispõe de uma equipe capaz de formular perguntas com base na literatura científica existente, bem como de realizar estudos “data-driven” ou dirigidos por dados.
A particularidade dos estudos data-driven é que estão centrados na análise e interpretação dos dados. Essa perspectiva baseia-se no uso de grandes quantidades de dados para descobrir padrões e tendências ocultas.
O uso de novas tecnologias e técnicas avançadas de análise, necessárias para trabalhar com esses grandes conjuntos de dados, era dificilmente acessível para a maioria dos pesquisadores até poucos anos atrás. Portanto, essa perspectiva é importante e necessária quando se dispõe de grandes volumes de dados, pois pode oferecer conclusões inovadoras que não seriam alcançadas usando métodos baseados apenas na teoria.
Bibliografia
- Park, J.H., Cho, H.E., Kim, J.H. et al. Machine learning prediction of incidence of Alzheimer’s disease using large-scale administrative health data. npj Digit. Med. 3, 46 (2020). https://doi.org/10.1038/s41746-020-0256-0








Deixe um comentário