В этой статье Антонио Хавьер Сутиль Хименес рассказывает об исследовании «Прогнозирование заболеваемости болезнью Альцгеймера с использованием методов машинного обучения на основе масштабных административных медицинских данных».
Почему важно исследование предсказания болезни Альцгеймера с помощью машинного обучения?
Прогресс технологий иногда может дать неожиданные решения медицинских проблем. Примером этого является использование административных медицинских данных для создания предиктивных моделей риска развития болезни Альцгеймера.
Главной новизной работы Парк и соавторов стало использование этого массивного объёма данных, которые, как отмечают исследователи, во многих случаях ещё не были полностью использованы. Следовательно, цифровизация медицинских историй стала ценным ресурсом для сокращения усилий и затрат на сбор данных.
Несмотря на это, их применение к таким заболеваниям, как Альцгеймер, было ограничено. Частично это решилось благодаря увеличению вычислительных мощностей, что позволяет применять методы машинного обучения к анализу данных и создавать предиктивные модели, которые могут быть репрезентативны для популяции, при наличии достаточно больших выборок.
Посылка исследования
При проведении исследования исходили из предпосылки, что использование данных об индивидах, находящихся в группе риска по болезни Альцгеймера, позволит лучше ранее выявлять случаи на доклинической стадии и, следовательно, улучшать терапевтические стратегии.
Для достижения этой цели группа исследователей получила доступ к базе данных национальной системы здравоохранения Кореи, которая содержала более 40 000 медицинских карточек людей старше 65 лет, с большим объёмом информации, такой как личная история, семейный анамнез, социодемографические данные, диагнозы, лекарства и т.д.
Что было сделано?
Набор данных
Для проведения исследования была взята когорта NHIS-NSC (The National Health Insurance Service–National Sample Cohort) Южной Кореи, включавшая более миллиона участников, за которыми проводилось наблюдение в течение одиннадцати лет (2002–2013).
База данных содержала информацию об услугах здравоохранения, диагнозах и назначениях каждого человека, а также клинические характеристики, включавшие демографические данные, уровни дохода на основе месячной зарплаты, коды заболеваний и лекарств, лабораторные показатели, профили здоровья и анамнез личных и семейных заболеваний. Из этой выборки были отобраны 40 736 взрослых старше 40 лет для данного исследования.
Оперативное определение болезни Альцгеймера
Далее было создано оперативное определение болезни Альцгеймера, основанное на алгоритме предыдущего канадского исследования.
Этот алгоритм показал чувствительность 79% и специфичность 99%, включая коды госпитализаций, медицинские претензии и рецепты, специфичные для Альцгеймера.
Для повышения точности обнаружения заболевания использовали метки «definite AD» для случаев с высокой степенью уверенности и «probable AD» для случаев, подтверждённых только по кодам CIE-10 (аббревиатура для Международной классификации болезней), с целью минимизации ложных отрицательных результатов. С этими метками получилась распространённость болезни Альцгеймера 1,5% для «definite AD» и 4,9% для «probable AD».
Анализ
Для анализа и обработки данных использовались такие характеристики, как возраст и пол, а также 21 переменная из базы NHIS-NSC, включавшая профили здоровья и семейный анамнез, вместе с более чем 6 000 переменных, полученных из кодов CIE-10 и назначений лекарств.
После описания характеристик они были выровнены с учётом времени постановки диагноза для каждого индивида по кодам CIE-10 и кодам лекарств. Это позволило исключить редкие заболевания и коды лекарств с низкой частотой встречаемости. Кроме того, исключалися индивиды, у которых не было новых данных о здоровье за последние два года. Конечный набор переменных, использованных в моделях, включал 4 894 уникальные характеристики.
Для предсказаний на «n» лет в группе с болезнью Альцгеймера использовали временные окна от 2002 года до года инцидента. В группе без болезни данные брали с 2002 года по 2010-n.
Наконец, перед внедрением модели создали подмножества для обучения, валидации и тестирования, используя как сбалансированный случайно выборочный набор данных, так и несбалансированный набор данных.
Применение методов машинного обучения (ML)
В конце был проведён анализ данных с применением методов машинного обучения, таких как случайный лес, метод опорных векторов с линейным ядром и логистическая регрессия.
Обучение, валидация и тестирование проводились с использованием стратифицированной перекрёстной проверки с 5 итерациями.
Выбор признаков осуществлялся внутри обучающих выборок с использованием метода порога дисперсии, а обобщающая способность модели оценивалась на тестовых выборках.
Для оценки качества модели использовали стандартные метрики, такие как площадь под ROC-кривой, чувствительность и специфичность.
Для получения более подробной информации о выполнении исследования рекомендуется обратиться к оригинальной статье.
Каковы основные выводы этого исследования по предсказанию Альцгеймера с помощью машинного обучения?
Работа подчёркивает потенциал методов машинного обучения, управляемых данными, как перспективный инструмент для прогнозирования риска деменции типа Альцгеймера.
Главное преимущество исследования
Это исследование имеет большое преимущество по сравнению с другими подходами, основанными на данных нейровизуализации или нейропсихологических оценках, поскольку оно проводилось исключительно на основе административных данных.
Тогда как другие исследования фокусируются на популяциях, уже находящихся в реальной клинической группе риска или настолько обеспокоенных своим состоянием, что обращаются к специалисту, этот подход использует доступность административных данных для выявления рисков без необходимости предварительных клинических обследований.
| Definite AD | Probable AD | Non-AD | |
| № | 614 | 2026 | 38.710 |
| Возраст | 80.7 | 79.2 | 74.5 |
| Пол (мужчины, женщины) | 229, 285 | 733, 1293 | 18.200, 20.510 |
Ниже приведены сравнительные таблицы между definite AD и non AD, а также Probable AD и non AD для годов прогнозирования 0 и 4 со всеми классификаторами, использованными в исследовании.
| Годы прогнозирования | Классификатор | Метрики | |||
| Точность | AUC | Чувствительность | Специфичность | ||
| 0 лет | Логистическая регрессия | 0.76 | 0.794 | 0.726 | 0.793 |
| Метод опорных векторов | 0.763 | 0.817 | 0.795 | 0.811 | |
| Случайный лес | 0.823 | 0.898 | 0.509 | 0.852 | |
| 4 года | Логистическая регрессия | 0.627 | 0.661 | 0.509 | 0.745 |
| Метод опорных векторов | 0.646 | 0.685 | 0.538 | 0.754 | |
| Случайный лес | 0.663 | 0.725 | 0.621 | 0.705 |
| Годы прогнозирования | Классификатор | Метрики | |||
| Точность | AUC | Чувствительность | Специфичность | ||
| 0 лет | Логистическая регрессия | 0.763 | 0.783 | 0.689 | 0.783 |
| Метод опорных векторов | 0.734 | 0.794 | 0.652 | 0.816 | |
| Случайный лес | 0.788 | 0.850 | 0.723 | 0.853 | |
| 4 года | Логистическая регрессия | 0.611 | 0.644 | 0.516 | 0.707 |
| Метод опорных векторов | 0.601 | 0.641 | 0.465 | 0.738 | |
| Случайный лес | 0.641 | 0.683 | 0.603 | 0.679 |
Обе представленные таблицы являются упрощениями таблиц из оригинальной статьи. В данном случае число лет было сокращено до двух (0 и 4 года) для прогнозируемых периодов.
Находки для предсказания
Ещё одним важным моментом статьи являются признаки, значимые для предсказания. Их описывают как связанные положительно или отрицательно с появлением болезни Альцгеймера. Некоторые из признаков, положительно связанных с развитием заболевания включают возраст, наличие белка в моче и назначение зотепина (антипсихотик).
Напротив, также выявлены признаки, которые отрицательно связаны с появлением заболевания, такие как понижение гемоглобина, назначение никометата цитрата (вазодилататор), дегенеративные расстройства нервной системы и заболевания наружного уха.
Кроме того, модель предсказания была протестирована, используя только 20 наиболее важных признаков, и было обнаружено, что точность модели для годов 0 и 1 очень схожа с исходной моделью.
Возможна ли детекция на основе административных медицинских данных?
Таким образом, вывод исследования заключается в том, что выявление людей с риском Альцгеймера, основываясь только на административных медицинских данных, возможно. Однако авторы отмечают, что будущие исследования в разных странах и системах здравоохранения могут подтвердить эти результаты. Их репликация стала бы важной вехой для более раннего и точного выявления людей, находящихся в группе риска.
Где NeuronUP может внести вклад в такое исследование?
NeuronUP обладает научным опытом в двух основных областях:
- Оказание поддержки исследовательским группам, заинтересованным в технологиях,
- проведение собственных работ для публикации в рецензируемых научных журналах с высоким импакт-фактором.
В частности, для исследований со сходными характеристиками мы считаем, что, имея доступ к большим наборам данных, как описано выше, NeuronUP располагает командой и опытом для:
- С одной стороны, внедрения сложных методов машинного обучения, подобных упомянутым в статье;
- и, с другой стороны, проектирования исследования. То есть у них есть команда, способная формулировать вопросы на основе существующей научной литературы, а также проводить исследования «data-driven», управляемые данными.
Особенность исследований data-driven в том, что они сосредоточены на анализе и интерпретации данных. Этот подход основан на использовании больших объёмов данных для выявления скрытых шаблонов и тенденций.
Использование новых технологий и продвинутых методов анализа, необходимых для работы с такими большими наборами данных, было до недавнего времени мало доступно для большинства исследователей. Поэтому этот подход важен и необходим, когда имеются большие объёмы данных, поскольку они могут дать новые выводы, недостижимые методами, основанными только на теории.
Библиография
- Park, J.H., Cho, H.E., Kim, J.H. et al. Machine learning prediction of incidence of Alzheimer’s disease using large-scale administrative health data. npj Digit. Med. 3, 46 (2020). https://doi.org/10.1038/s41746-020-0256-0
Если вам понравилась эта запись в блоге о предсказании распространённости болезни Альцгеймера с помощью машинного обучения с использованием крупных административных медицинских данных, вам наверняка будут интересны эти статьи NeuronUP:
«Эта статья была переведена. Ссылка на оригинальную статью на испанском:»
Predicción de la incidencia de la enfermedad de alzheimer mediante machine learning utilizando datos sanitarios administrativos a gran escala







Употребление алкоголя во время беременности: влияние на мозг плода и риск интеллектуальной инвалидности
Добавить комментарий