Neste artigo, Antonio Javier Sutil Jiménez fala sobre o estudo “Predição da incidência da doença de Alzheimer por meio de machine learning utilizando dados administrativos de saúde em larga escala”.
Por que é importante o estudo de predição do Alzheimer com machine learning?
O avanço da tecnologia pode proporcionar, às vezes, soluções inesperadas para problemas médicos. Um exemplo disso é o uso de dados administrativos de saúde para criar modelos preditivos de risco de desenvolver a doença de Alzheimer.
A grande novidade do trabalho de Park e colaboradores foi o aproveitamento dessa quantidade massiva de dados que, como descrevem os pesquisadores, ainda está em muitos casos por ser explorada. Por isso, a digitalização dos prontuários clínicos se tornou um recurso de grande valor para reduzir os esforços e o custo da coleta de dados.
Apesar disso, sua aplicação a doenças como o Alzheimer havia sido limitada. Em parte, isso foi resolvido graças ao aumento da capacidade de computação, o que permite aplicar técnicas de machine learning à análise dos dados e criar modelos preditivos que possam ser representativos da população, por contar com amostras suficientemente grandes.
Premissa do estudo
Para a realização do estudo, parte-se da premissa de que o uso de dados de indivíduos em risco de desenvolver a doença de Alzheimer permitirá uma melhor detecção precoce de casos em estágio pré-clínico e, portanto, melhorar as estratégias terapêuticas.
Para alcançar esse objetivo, o grupo de pesquisadores teve acesso ao banco de dados do sistema nacional de saúde da Coreia, que continha mais de 40.000 prontuários de saúde de pessoas com mais de 65 anos, com grande quantidade de informação como histórico pessoal, antecedentes familiares, dados sociodemográficos, diagnósticos, medicação, etc.
O que foi feito?
Conjunto de dados
Para realizar o estudo, foi utilizada uma coorte do NHIS-NSC (The National Health Insurance Service–National Sample Cohort) da Coreia do Sul, que incluía mais de um milhão de participantes, e foi realizado acompanhamento durante onze anos (2002 a 2013).
O banco de dados continha informações sobre os serviços de saúde, diagnósticos e prescrições de cada indivíduo, assim como características clínicas, que incluíam dados demográficos, níveis de renda baseados no salário mensal, códigos de doenças e medicamentos, valores de laboratório, perfis de saúde e histórico de doenças pessoais e familiares. Dessa amostra, foram selecionados 40.736 adultos com mais de 40 anos para este estudo.
Definição operacional da doença de Alzheimer
A seguir, foi criada uma definição operacional da doença de Alzheimer, baseada no algoritmo de um estudo canadense prévio.
Esse algoritmo obteve uma sensibilidade de 79% e uma especificidade de 99%, incluindo códigos de hospitalização, reclamações médicas e prescrições específicas para o Alzheimer.
Para melhorar a precisão na detecção da doença, foram usadas as etiquetas “definite AD” para os casos nos quais se tinha alto grau de certeza, e “probable AD” para os casos confirmados apenas mediante os códigos da CIE-10 (acrônimo da Classificação Internacional de Doenças), com o fim de minimizar os falsos negativos. Com essas etiquetas, obteve-se uma prevalência da doença de Alzheimer de 1.5% para “definite AD” e de 4.9% para “probable AD”.
Análise
Para a análise e processamento dos dados, foram utilizadas características como a idade e o sexo, além de 21 variáveis provenientes do banco de dados NHIS-NSC, que incluíam perfis de saúde e histórico de doenças familiares, juntamente com mais de 6.000 variáveis derivadas dos códigos CIE-10 e de medicação.
Uma vez descritas as características, estas foram alinhadas concentrando-se na incidência do diagnóstico para cada indivíduo, segundo os códigos CIE-10 e os códigos de medicamentos. Isso permitiu eliminar doenças raras e códigos de medicação com baixa frequência de aparecimento. Além disso, foram excluídos os indivíduos que não contavam com novos dados de saúde nos dois últimos anos. O conjunto final de variáveis utilizadas nos modelos incluiu 4.894 características únicas.
Para realizar as previsões para “n” anos no grupo com doença de Alzheimer, foram utilizadas as janelas de tempo compreendidas entre 2002 e o ano de incidência. No grupo que não padecia da doença, tomaram-se os dados desde 2002 até 2010-n.
Por último, antes de implementar o modelo, foram criados subconjuntos de treinamento, validação e teste utilizando tanto um conjunto de dados balanceado e amostrado aleatoriamente, quanto um conjunto de dados não balanceado.
Aplicação de técnicas de machine learning (ML)
Finalmente, realizou-se o análise dos dados implementando técnicas de machine learning como random forest, support vector machine com kernel linear e regressão logística.
O treinamento, a validação e os testes foram realizados utilizando validação cruzada estratificada com 5 iterações.
A seleção de características foi realizada dentro das amostras de treinamento utilizando um método de limiar de variância, e a generalização do desempenho do modelo foi avaliada nas amostras de teste.
Para verificar o desempenho do modelo, foram utilizadas métricas habituais, como a área sob a curva ROC, sensibilidade e especificidade.
Para mais detalhes de como este estudo foi realizado, recomenda-se consultar o artigo original.

Inscreva-se
na nossa
Newsletter
Quais são as principais conclusões deste estudo de predição do Alzheimer com machine learning?
O trabalho destaca o potencial das técnicas de aprendizado de máquina direcionadas por dados como uma ferramenta promissora para prever o risco de demência do tipo Alzheimer.
Principal vantagem do estudo
Este estudo apresenta uma grande vantagem em comparação com outros enfoques baseados em informações obtidas por exames de neuroimagem ou avaliações neuropsicológicas, pois foi realizado utilizando exclusivamente dados administrativos.
Enquanto outros estudos se concentram em populações que já se encontram em uma situação de risco clínico real ou que demonstraram preocupação suficiente para consultar um profissional de saúde, essa abordagem aproveita a disponibilidade de dados administrativos para identificar riscos sem necessidade de avaliações clínicas prévias.
| Definite AD | Probable AD | Non-AD | |
| Nº | 614 | 2026 | 38.710 |
| Idade | 80.7 | 79.2 | 74.5 |
| Sexo (homem, mulher) | 229, 285 | 733, 1293 | 18.200, 20.510 |
A seguir, são mostradas as tabelas comparativas entre definite AD e non AD, e Probable AD e non AD para os anos de predição 0 e 4 com todos os classificadores usados no estudo.
| Anos de predição | Classificador | Métricas | |||
| Precisão | AUC | Sensibilidade | Especificidade | ||
| 0 anos | Regressão logística | 0.76 | 0.794 | 0.726 | 0.793 |
| Support Vector Model | 0.763 | 0.817 | 0.795 | 0.811 | |
| Random Forest | 0.823 | 0.898 | 0.509 | 0.852 | |
| 4 años | Regressão logística | 0.627 | 0.661 | 0.509 | 0.745 |
| Support Vector Model | 0.646 | 0.685 | 0.538 | 0.754 | |
| Random Forest | 0.663 | 0.725 | 0.621 | 0.705 |
| Anos de predição | Classificador | Métricas | |||
| Precisão | AUC | Sensibilidade | Especificidade | ||
| 0 años | Regressão logística | 0.763 | 0.783 | 0.689 | 0.783 |
| Support Vector Model | 0.734 | 0.794 | 0.652 | 0.816 | |
| Random Forest | 0.788 | 0.850 | 0.723 | 0.853 | |
| 4 años | Regressão logística | 0.611 | 0.644 | 0.516 | 0.707 |
| Support Vector Model | 0.601 | 0.641 | 0.465 | 0.738 | |
| Random Forest | 0.641 | 0.683 | 0.603 | 0.679 |
Ambas tabelas apresentadas são simplificações das tabelas do artigo original. Neste caso, o número de anos foi reduzido para apenas dois (0 e 4 anos) para os anos de previsão.
Resultados para a predição
Outro ponto de destaque do artigo são as características importantes encontradas para a predição. Estas são descritas como relacionadas de maneira positiva ou negativa com a incidência da doença de Alzheimer. Algumas das características relacionadas positivamente com o desenvolvimento da doença incluem a idade, a presença de proteína na urina e a prescrição de zotepina (um antipsicótico).
Por outro lado, também foram detectadas características que se relacionaram negativamente com a incidência da doença, como a diminuição da hemoglobina, a prescrição de nicametato citrato (um vasodilatador), os transtornos degenerativos do sistema nervoso e os transtornos do ouvido externo.
Além disso, o modelo preditivo foi testado usando apenas as 20 características mais importantes, e verificou-se que o modelo apresentava uma precisão para os anos 0 e 1 muito semelhante ao original.
É possível a detecção baseada em dados administrativos de saúde?
Portanto, a conclusão do estudo é que a detecção de indivíduos com risco de Alzheimer com base apenas em dados administrativos de saúde é possível. No entanto, os autores deixam em aberto a possibilidade de que futuros estudos em diferentes nações e sistemas de saúde possam corroborar esses resultados. Sua replicação seria um marco que permitiria uma detecção mais precoce e precisa de pessoas em risco.
Onde a NeuronUP poderia contribuir em um estudo como este?
NeuronUP tem experiência no âmbito científico em duas áreas principais:
- Prestando apoio a grupos de pesquisa interessados em tecnologia,
- realizando seus próprios trabalhos para serem publicados em periódicos de alto impacto científico.
Especificamente, para estudos com características semelhantes aos revisados neste artigo, acreditamos que, ao ter acesso a grandes conjuntos de dados como os descritos, NeuronUP dispõe da equipe e da experiência necessárias para:
- Por um lado, implementar técnicas sofisticadas de aprendizado de máquina, como as mencionadas no artigo;
- e, por outro lado, no desenho do estudo. Ou seja, dispõe de uma equipe capacitada para formular questões baseadas na literatura científica existente, bem como para realizar estudos orientados por dados (data-driven) ou dirigidos pelos dados.
A particularidade dos estudos orientados por dados é que estão centrados na análise e interpretação dos dados. Essa perspectiva baseia-se no uso de grandes quantidades de dados para descobrir padrões e tendências ocultas.
O uso de novas tecnologias e técnicas avançadas de análise, necessárias para trabalhar com esses grandes conjuntos de dados, era dificilmente acessível à maioria dos pesquisadores até há poucos anos. Portanto, essa perspectiva é importante e necessária quando se dispõe de grandes volumes de dados, pois podem oferecer conclusões inovadoras que não seriam alcançadas utilizando métodos baseados apenas na teoria.
Bibliografia
- Park, J.H., Cho, H.E., Kim, J.H. et al. Machine learning prediction of incidence of Alzheimer’s disease using large-scale administrative health data. npj Digit. Med. 3, 46 (2020). https://doi.org/10.1038/s41746-020-0256-0







FOMO: o medo de ficar de fora da era digital
Deixe um comentário