En este artículo, Antonio Javier Sutil Jiménez habla acerca del estudio “Predicción de la incidencia de la enfermedad de alzheimer mediante machine learning utilizando datos sanitarios administrativos a gran escala”.
Por que é importante o estudo de predição do Alzheimer com aprendizado de máquina?
O avanço da tecnologia pode fornecer, por vezes, soluções inesperadas para problemas médicos. Um exemplo disso é o uso de dados administrativos de saúde para criar modelos preditivos de risco de desenvolver a doença de Alzheimer.
A grande novidade do trabalho de Park e colaboradores foi o aproveitamento dessa quantidade massiva de dados que, como descrevem os pesquisadores, ainda em muitos casos estão por ser explorados. Portanto, a digitalização dos prontuários clínicos tornou-se um recurso de grande valor para reduzir os esforços e o custo da coleta de dados.
Apesar disso, sua aplicação a doenças como o Alzheimer havia sido limitada. Em parte, isso se solucionou graças ao aumento da capacidade de computação, o que permite aplicar técnicas de aprendizado de máquina na análise dos dados e criar modelos preditivos que possam ser representativos da população, por contar com amostras suficientemente grandes.
Premissa do estudo
Para a realização do estudo, parte-se da premissa de que o uso de dados de indivíduos em risco de desenvolver a doença de Alzheimer permitirá uma melhor detecção precoce de casos em estágio pré-clínico e, por conseguinte, melhorar as estratégias terapêuticas.
Para alcançar esse objetivo, o grupo de pesquisadores teve acesso ao banco de dados do sistema nacional de saúde da Coreia, que continha mais de 40.000 prontuários de saúde de pessoas com mais de 65 anos, com uma grande quantidade de informação como história pessoal, antecedentes familiares, dados sociodemográficos, diagnósticos, medicação, etc.
O que foi feito?
Conjunto de dados
Para realizar o estudo, foi utilizada uma coorte do NHIS-NSC (The National Health Insurance Service–National Sample Cohort) da Coreia do Sul, que incluía mais de um milhão de participantes, e estes foram acompanhados durante onze anos (2002 a 2013).
O banco de dados continha informação sobre os serviços de saúde, diagnósticos e prescrições de cada indivíduo, assim como características clínicas, que incluíam dados demográficos, níveis de renda baseados no salário mensal, códigos de doenças e medicamentos, valores de exames laboratoriais, perfis de saúde e histórico de doenças pessoais e familiares. Dessa amostra, foram selecionados 40.736 adultos com mais de 40 anos para este estudo.
Definição operacional da doença de Alzheimer
Em seguida, foi criada uma definição operacional da doença de Alzheimer, baseada no algoritmo de um estudo canadense prévio.
Esse algoritmo obteve uma sensibilidad del 79% y una especificidad del 99%, incluindo códigos de hospitalização, reclamos médicos e receitas específicas para o Alzheimer.
Para melhorar a precisão na detecção da doença, foram utilizadas as etiquetas de “definite AD” para os casos nos quais se tinha um alto grau de certeza, e “probable AD” para os casos confirmados unicamente mediante os códigos da CIE-10 (acrónimo da Classificação Internacional de Doenças), com o fim de minimizar os falsos negativos. Com essas etiquetas, obteve-se uma prevalência da doença de Alzheimer de 1.5% para “definite AD” e de 4.9% para “probable AD”.
Análise
Para a análise e processamento dos dados, foram utilizadas características como a idade e o sexo, além de 21 variáveis provenientes do banco de dados NHIS-NSC, que incluíam perfis de saúde e histórico de doenças familiares, juntamente com mais de 6.000 variáveis derivadas dos códigos CIE-10 e de medicação.
Uma vez descritas as características, estas foram alinhadas focando na incidência do diagnóstico para cada indivíduo, segundo os códigos CIE-10 e os códigos de medicamentos. Isso permitiu eliminar doenças raras e códigos de medicação com baixa frequência de aparecimento. Além disso, foram excluídos os indivíduos que não contavam com novos dados de saúde nos dois últimos anos. O conjunto final de variáveis utilizadas nos modelos incluiu 4.894 características únicas.
Para realizar as predições para “n” anos no grupo com doença de Alzheimer, foram utilizadas as janelas de tempo compreendidas entre 2002 e o ano de incidência. No grupo que não padecia da doença, tomaram-se os dados desde 2002 até 2010-n.
Por fim, antes de implementar o modelo, foram criados subconjuntos de treinamento, validação e teste utilizando tanto um conjunto de dados balanceado e amostrado aleatoriamente, como um conjunto de dados não balanceado.
Aplicação de técnicas de aprendizado de máquina (ML)
Finalmente, realizou-se o análise dos dados implementando técnicas de aprendizado de máquina como random forest, support vector machine com kernel linear e regressão logística.
O treinamento, a validação e os testes foram conduzidos utilizando validação cruzada estratificada com 5 iterações.
A seleção de características foi realizada dentro das amostras de treinamento utilizando um método de limiar de variância, e a generalização do desempenho do modelo foi avaliada nas amostras de teste.
Para comprovar o desempenho do modelo, foram utilizadas métricas habituais, como a área sob a curva ROC, a sensibilidade e a especificidade.
Para mais detalhes de como este estudo foi realizado, recomenda-se consultar o artigo original.

Inscreva-se
na nossa
Newsletter
Quais são as principais conclusões deste estudo de predição de Alzheimer com aprendizado de máquina?
O trabalho destaca o potencial das técnicas de aprendizado de máquina orientadas por dados como uma ferramenta promissora para prever o risco de demência do tipo Alzheimer.
Vantagem principal do estudo
Este estudo apresenta uma grande vantagem em comparação com outras abordagens baseadas em informação obtida por exames de neuroimagem ou avaliações neuropsicológicas, já que foi realizado utilizando exclusivamente dados administrativos.
Enquanto outros estudos se focam em populações que já se encontram em uma situação de risco clínico real ou que demonstraram preocupação suficiente para consultar um profissional de saúde, essa abordagem aproveita a disponibilidade de dados administrativos para identificar riscos sem necessidade de avaliações clínicas prévias.
| Definite AD | Probable AD | Non-AD | |
| Nº | 614 | 2026 | 38.710 |
| Idade | 80.7 | 79.2 | 74.5 |
| Sexo (homem, mulher) | 229, 285 | 733, 1293 | 18.200, 20.510 |
A seguir, são mostradas as tabelas comparativas entre definite AD e non AD, e Probable AD e non AD para os anos de predição 0 e 4 com todos os classificadores usados no estudo.
| Anos de predição | Classificador | Métricas | |||
| Precisão | AUC | Sensibilidade | Especificidade | ||
| 0 anos | Regressão logística | 0.76 | 0.794 | 0.726 | 0.793 |
| Support Vector Model | 0.763 | 0.817 | 0.795 | 0.811 | |
| Random Forest | 0.823 | 0.898 | 0.509 | 0.852 | |
| 4 anos | Regressão logística | 0.627 | 0.661 | 0.509 | 0.745 |
| Support Vector Model | 0.646 | 0.685 | 0.538 | 0.754 | |
| Random Forest | 0.663 | 0.725 | 0.621 | 0.705 |
| Anos de predição | Classificador | Métricas | |||
| Precisão | AUC | Sensibilidade | Especificidade | ||
| 0 anos | Regressão logística | 0.763 | 0.783 | 0.689 | 0.783 |
| Support Vector Model | 0.734 | 0.794 | 0.652 | 0.816 | |
| Random Forest | 0.788 | 0.850 | 0.723 | 0.853 | |
| 4 anos | Regressão logística | 0.611 | 0.644 | 0.516 | 0.707 |
| Support Vector Model | 0.601 | 0.641 | 0.465 | 0.738 | |
| Random Forest | 0.641 | 0.683 | 0.603 | 0.679 |
Ambas as tabelas apresentadas são simplificações das tabelas do artigo original. Neste caso, reduziu-se o número de anos para apenas dois (0 e 4 anos) para os anos de predição.
Achados para a predição
Outro ponto destacado do artigo são as características importantes encontradas para a predição. Estas são descritas como relacionadas de maneira positiva ou negativa com a incidência da doença de Alzheimer. Algumas das características relacionadas positivamente com o desenvolvimento da doença incluem a idade, a presença de proteína na urina e a prescrição de zotepina (um antipsicótico).
Por outro lado, também foram detectadas características que se relacionaram negativamente com a incidência da doença, como a diminuição da hemoglobina, a prescrição de nicametato citrato (um vasodilatador), os transtornos degenerativos do sistema nervoso e os transtornos do ouvido externo.
Além disso, o modelo preditor foi testado usando apenas as 20 características mais importantes, e constatou-se que o modelo tinha uma precisão para os anos 0 e 1 muito similar ao original.
É possível a detecção baseada em dados administrativos de saúde?
Portanto, a conclusão do estudo é que a detecção de indivíduos com risco de Alzheimer com base apenas em dados administrativos de saúde é possível. No entanto, os autores deixam em aberto a possibilidade de que estudos futuros em diferentes nações e sistemas de saúde possam corroborar esses resultados. Sua replicação seria um marco que permitiria uma detecção mais precoce e precisa de pessoas em risco.
Onde a NeuronUP poderia contribuir em um estudo como este?
NeuronUP tem experiência no âmbito científico em duas áreas principais:
- Prestando apoio a grupos de pesquisa interessados em tecnologia,
- realizando seus próprios trabalhos para serem publicados em revistas de alto impacto científico.
Concretamente, para estudos com características semelhantes aos revisados neste artigo, acreditamos que, tendo acesso a grandes conjuntos de dados como os descritos, NeuronUP conta com a equipe e a experiência necessárias para:
- Por um lado, implementar técnicas sofisticadas de aprendizado de máquina, como as mencionadas no artigo;
- e, por outro lado, no desenho do estudo. Ou seja, dispõe de uma equipe capacitada para formular perguntas baseadas na literatura científica existente, bem como para realizar estudos “data-driven” ou orientados por dados.
A particularidade dos estudos data-driven é que estão centrados na análise e na interpretação dos dados. Esta perspectiva baseia-se no uso de grandes quantidades de dados para descobrir padrões e tendências ocultas.
O uso de novas tecnologias e técnicas avançadas de análise, necessárias para trabalhar com esses grandes conjuntos de dados, era dificilmente acessível para a maioria dos pesquisadores até poucos anos atrás. Portanto, essa perspectiva é importante e necessária quando se dispõe de grandes volumes de dados, pois eles podem oferecer conclusões inéditas que não seriam alcançadas utilizando métodos baseados unicamente na teoria.
Bibliografia
- Park, J.H., Cho, H.E., Kim, J.H. et al. Machine learning prediction of incidence of Alzheimer’s disease using large-scale administrative health data. npj Digit. Med. 3, 46 (2020). https://doi.org/10.1038/s41746-020-0256-0







Consumo de álcool durante a gravidez: efeitos no cérebro fetal e risco de deficiência intelectual
Deixe um comentário