В этой статье Антонио Хавьер Сутиль Хименес рассказывает об исследовании «Прогнозирование заболеваемости болезнью Альцгеймера с помощью машинного обучения на основе крупномасштабных административных медицинских данных».
Почему важно исследование прогнозирования болезни Альцгеймера с помощью машинного обучения?
Прогресс технологий иногда может предложить неожиданные решения медицинских проблем. Примером этого является использование административных медицинских данных для создания прогностических моделей риска развития болезни Альцгеймера.
Главным новшеством работы Пака и соавторов явилось использование этого массивного объема данных, которые, как описывают исследователи, во многих случаях еще предстоит освоить. Поэтому цифровизация медицинских карт стала ценным ресурсом для сокращения трудозатрат и затрат на сбор данных.
Тем не менее их применение к таким заболеваниям, как Альцгеймер, было ограниченным. Отчасти это было решено благодаря увеличению вычислительных мощностей, что позволяет применять методы машинного обучения к анализу данных и создавать прогностические модели, способные быть представительными для популяции благодаря наличию достаточно больших выборок.
Предпосылка исследования
Для проведения исследования исходят из предположения, что использование данных лиц, находящихся в группе риска по болезни Альцгеймера, позволит лучше осуществлять раннее выявление случаев на доклинической стадии и, таким образом, улучшить терапевтические стратегии.
Для достижения этой цели группа исследователей получила доступ к базе данных национальной системы здравоохранения Кореи, содержащей более 40 000 медицинских карт лиц старше 65 лет с большим объемом информации: личная история, семейный анамнез, социодемографические данные, диагнозы, назначенные лекарства и т. д.
Что было сделано?
Набор данных
Для проведения исследования была выбрана когорта NHIS-NSC (The National Health Insurance Service–National Sample Cohort) из Южной Кореи, включавшая более миллиона участников, за которыми велось наблюдение в течение одиннадцати лет (с 2002 по 2013 гг.).
База данных содержала информацию о медицинских услугах, диагнозах и назначениях каждого человека, а также клинические характеристики, включавшие демографические данные, уровень дохода на основе ежемесячной зарплаты, коды заболеваний и лекарств, лабораторные показатели, профили здоровья и историю личных и семейных заболеваний. Из этой выборки для исследования было отобрано 40 736 взрослых старше 40 лет.
Оперативное определение болезни Альцгеймера
Затем было разработано оперативное определение болезни Альцгеймера на основе алгоритма из ранее проведенного канадского исследования.
Этот алгоритм обеспечивал чувствительность 79% и специфичность 99%, включая коды госпитализации, медицинские обращения и рецепты, специфичные для Альцгеймера.
Для повышения точности в выявлении заболевания использовали метки «definite AD» для случаев с высокой степенью уверенности и «probable AD» для случаев, подтвержденных только с помощью кодов МКБ-10 (сокращение от Международной классификации болезней), с целью минимизировать ложноотрицательные результаты. С этими метками распространенность болезни Альцгеймера составила 1,5% для «definite AD» и 4,9% для «probable AD».
Анализ
Для анализа и обработки данных использовали такие характеристики, как возраст и пол, а также 21 переменную из базы данных NHIS-NSC, включавшую профили здоровья и историю семейных болезней, наряду с более чем 6 000 переменными, полученными из кодов МКБ-10 и данных о медикаментах.
После описания характеристик их выравнивали с акцентом на факт постановки диагноза для каждого человека в соответствии с кодами МКБ-10 и кодами лекарственных средств. Это позволило исключить редкие заболевания и коды медикаментов с низкой частотой встречаемости. Кроме того, были исключены лица, у которых не было новых данных о здоровье за последние два года. В итоговый набор переменных для моделей вошло 4 894 уникальных признака.
Для прогнозирования на «n» лет вперед в группе с болезнью Альцгеймера использовали временные окна от 2002 года до года регистрации случая. В группе без заболевания данные брали с 2002 по 2010−n года.
Наконец, перед реализацией модели создали подмножества для обучения, валидации и тестирования, используя как сбалансированный и случайным образом отобранный набор данных, так и несбалансированный набор.
Применение методов машинного обучения (ML)
В конце был выполнен анализ данных с применением методов машинного обучения, таких как random forest, support vector machine с линейным ядром и логистическая регрессия.
Обучение, валидация и тестирование проводились с использованием стратифицированной перекрестной проверки в 5 итерациях.
Отбор признаков осуществлялся на тренировочных выборках с использованием метода пороговой дисперсии, а обобщенная оценка производительности модели проводилась на тестовых выборках.
Для оценки производительности модели применялись стандартные метрики, такие как площадь под ROC-кривой (AUC), чувствительность и специфичность.
Для более подробного описания методов исследования рекомендуется обратиться к оригинальной статье.
Каковы основные выводы этого исследования по прогнозированию болезни Альцгеймера с помощью машинного обучения?
В работе подчеркивается потенциал методов машинного обучения, основанных на данных, как перспективного инструмента для прогнозирования риска деменции типа Альцгеймера.
Основное преимущество исследования
Это исследование имеет значительное преимущество по сравнению с другими подходами, основанными на данных нейровизуализации или нейропсихологических оценках, поскольку проводилось исключительно на административных данных.
В то время как другие исследования фокусируются на группах, уже находящихся в реальной клинической зоне риска или достаточно обеспокоенных, чтобы обратиться к специалисту, этот подход использует доступность административных данных для выявления рисков без необходимости предварительных клинических оценок.
Definite AD | Probable AD | Non-AD | |
N | 614 | 2026 | 38.710 |
Возраст | 80.7 | 79.2 | 74.5 |
Пол (мужчины, женщины) | 229, 285 | 733, 1293 | 18.200, 20.510 |
Ниже приведены сравнительные таблицы между Definite AD и Non-AD, а также Probable AD и Non-AD для годов прогнозирования 0 и 4 со всеми классификаторами, использованными в исследовании.
Годы прогнозирования | Классификатор | Метрики | |||
Точность | AUC | Чувствительность | Специфичность | ||
0 лет | Логистическая регрессия | 0.76 | 0.794 | 0.726 | 0.793 |
Модель опорных векторов | 0.763 | 0.817 | 0.795 | 0.811 | |
Random Forest | 0.823 | 0.898 | 0.509 | 0.852 | |
4 года | Логистическая регрессия | 0.627 | 0.661 | 0.509 | 0.745 |
Модель опорных векторов | 0.646 | 0.685 | 0.538 | 0.754 | |
Random Forest | 0.663 | 0.725 | 0.621 | 0.705 |
Годы прогнозирования | Классификатор | Метрики | |||
Точность | AUC | Чувствительность | Специфичность | ||
0 лет | Логистическая регрессия | 0.763 | 0.783 | 0.689 | 0.783 |
Модель опорных векторов | 0.734 | 0.794 | 0.652 | 0.816 | |
Random Forest | 0.788 | 0.850 | 0.723 | 0.853 | |
4 года | Логистическая регрессия | 0.611 | 0.644 | 0.516 | 0.707 |
Модель опорных векторов | 0.601 | 0.641 | 0.465 | 0.738 | |
Random Forest | 0.641 | 0.683 | 0.603 | 0.679 |
Обе представленные таблицы являются упрощенной версией таблиц из оригинальной статьи. В данном случае количество прогнозных лет сократили до двух (0 и 4 года).
Результаты прогноза
Еще одним важным моментом статьи являются значимые признаки, найденные для прогнозирования. Они описаны как положительно или отрицательно связанные с развитием болезни Альцгеймера. Некоторые из признаков, положительно связанных с развитием заболевания, включают возраст, наличие белка в моче и назначение зотепина (антипсихотик).
Напротив, также были выявлены признаки, отрицательно связанные с развитием заболевания, такие как понижение уровня гемоглобина, назначение никаметато цитрата (васодилятатор), дегенеративные расстройства нервной системы и заболевания наружного уха.
Кроме того, предсказательная модель была протестирована, используя только 20 наиболее важных признаков, и было установлено, что ее точность для прогнозов на 0 и 1 год очень близка к исходной.
Возможна ли диагностика на основе административных медицинских данных?
Таким образом, заключение исследования заключается в том, что выявление лиц с риском болезни Альцгеймера исключительно на основе административных медицинских данных возможно. Однако авторы оставляют возможность того, что будущие исследования в разных странах и системах здравоохранения смогут подтвердить эти результаты. Их повторная проверка стала бы важным шагом для более раннего и точного выявления лиц с риском.
Чем NeuronUP может быть полезен в исследовании такого рода?
NeuronUP имеет научный опыт в двух основных областях:
- Оказывая поддержку исследовательским группам, заинтересованным в технологиях,
- проводя собственные исследования для публикации в журналах с высоким научным импакт-фактором.
В частности, для исследований со схожими характеристиками, рассмотренных в этой статье, мы считаем, что благодаря доступу к большим наборам данных, таким как описанные, NeuronUP располагает необходимой командой и опытом для:
- с одной стороны, внедрять сложные методы машинного обучения, такие как упомянутые в статье;
- а с другой стороны, участвовать в разработке дизайна исследования. То есть команда готова формулировать вопросы на основе существующей научной литературы, а также проводить исследования, ориентированные на данные (data-driven).
Особенность исследований, ориентированных на данные заключается в том, что они сконцентрированы на анализе и интерпретации данных. Такой подход основывается на использовании больших объемов данных для выявления скрытых паттернов и трендов.
Применение новых технологий и передовых методов анализа, необходимых для работы с такими большими наборами данных, до недавнего времени было трудно доступно большинству исследователей. Поэтому данный подход важен и необходим при наличии больших объемов данных, так как он может дать новые выводы, недоступные при использовании методов, основанных исключительно на теории.
Библиография
- Park, J.H., Cho, H.E., Kim, J.H. et al. Machine learning prediction of incidence of Alzheimer’s disease using large-scale administrative health data. npj Digit. Med. 3, 46 (2020). https://doi.org/10.1038/s41746-020-0256-0
Если вам понравился этот блог-пост о прогнозировании заболеваемости болезнью Альцгеймера с помощью машинного обучения на основе крупномасштабных административных медицинских данных, вам наверняка будут интересны эти статьи NeuronUP:
Эта статья была переведена, ссылка на оригинальную статью на испанском:
Predicción de la incidencia de la enfermedad de alzheimer mediante machine learning utilizando datos sanitarios administrativos a gran escala
Добавить комментарий