في هذه المقالة، يتحدث Antonio Javier Sutil Jiménez عن الدراسة “التنبؤ بحدوث مرض ألزهايمر باستخدام التعلّم الآلي بالاستفادة من بيانات صحية إدارية على نطاق واسع”.
لماذا تُعد دراسة التنبؤ بمرض ألزهايمر باستخدام التعلّم الآلي مهمة؟
قد توفر التقدّمات التكنولوجية، في بعض الأحيان، حلولاً غير متوقعة للمشكلات الطبية. من أمثلة ذلك استخدام البيانات الإدارية الصحية لإنشاء نماذج تنبؤية لمخاطر الإصابة بمرض ألزهايمر.
كان الجديد في عمل Park وزملائه هو الاستفادة من هذه الكمية الضخمة من البيانات التي، كما يصف الباحثون، لا تزال في كثير من الحالات غير مستغلة. لذلك، أصبحت رقمنة السجلات الطبية مصدرًا ذا قيمة كبيرة لتقليل الجهد وتكلفة جمع البيانات.
ومع ذلك، كان تطبيقها على أمراض مثل ألزهايمر محدودًا. جزئيًا، تم حل هذا بفضل زيادة القدرة الحاسوبية، مما يسمح بتطبيق تقنيات التعلّم الآلي على تحليل البيانات وإنشاء نماذج تنبؤية قد تكون ممثلة للسكان عند توفر عينات كبيرة بما يكفي.
فرضية الدراسة
تنطلق الدراسة من فرضية أن استخدام بيانات الأفراد المعرضين لخطر الإصابة بـ الكشف المبكر عن الحالات في المرحلة قبل السريرية سيسمح بتحسين الاستراتيجيات العلاجية.
لتحقيق هذا الهدف، حصل فريق الباحثين على قاعدة بيانات نظام التأمين الصحي الوطني في كوريا، التي احتوت على أكثر من 40.000 سجلات صحية لأشخاص تزيد أعمارهم عن 65 عامًا، مع كمية كبيرة من المعلومات مثل التاريخ الشخصي، التاريخ العائلي، البيانات السوسيو-ديموغرافية، التشخيصات، الأدوية، إلخ.
ماذا تم فعله؟
مجموعة البيانات
لإجراء الدراسة، اُخذت cohorte من NHIS-NSC (خدمة التأمين الصحي الوطنية – العيّنة الوطنية) في كوريا الجنوبية، والتي شملت أكثر من مليون مشارك، وتم متابعتهم لمدة أحد عشر عامًا (2002 إلى 2013).
احتوت قاعدة البيانات على معلومات حول خدمات الرعاية الصحية والتشخيصات والوصفات الطبية لكل فرد، بالإضافة إلى خصائص سريرية شملت بيانات ديموغرافية، مستويات الدخل بناءً على الراتب الشهري، رموز الأمراض والأدوية، قيم المختبر، ملفات صحية وسجل للأمراض الشخصية والعائلية. من هذه العينة، تم اختيار 40.736 بالغًا فوق سن 40 لهذا الدراسة.
التعريف التشغيلي لمرض ألزهايمر
بعد ذلك، تم إنشاء تعريف تشغيلي لمرض ألزهايمر، استنادًا إلى خوارزمية دراسية كندية سابقة.
حققت هذه الخوارزمية حساسية بنسبة 79% وخصوصية بنسبة 99%، شاملة رموز الدخول للمستشفى والمطالبات الطبية والوصفات الخاصة بألزهايمر.
لتحسين الدقة في الكشف عن المرض، استُخدمت تسميات “الألزهايمر المؤكد” للحالات التي كان هناك درجة عالية من اليقين بشأنها، و”الألزهايمر المحتمل” للحالات المؤكدة فقط باستخدام رموز CIE-10 (اختصار التصنيف الدولي للأمراض)، بهدف تقليل الإيجابيات الكاذبة. باستخدام هذه التسميات، سُجل انتشار لمرض ألزهايمر بنسبة 1.5% لـ “الألزهايمر المؤكد” وبنسبة 4.9% لـ “الألزهايمر المحتمل”.
التحليل
لتحليل ومعالجة البيانات، استُخدمت خصائص مثل العمر والجنس، بالإضافة إلى 21 متغيرًا واردًا من قاعدة بيانات NHIS-NSC، والتي شملت ملفات صحية وسجل الأمراض العائلية، إلى جانب أكثر من 6,000 متغير مشتق من رموز CIE-10 والأدوية.
بعد وصف الخصائص، تم مواءمتها مع التركيز على حدوث التشخيص لكل فرد، وفقًا لرموز CIE-10 ورموز الأدوية. أتاح ذلك إزالة الأمراض النادرة ورموز الأدوية ذات تكرار ظهور منخفض. بالإضافة إلى ذلك، استُبعد الأفراد الذين لم يكن لديهم بيانات صحية جديدة في العامين الأخيرين. تضمنت مجموعة المتغيرات النهائية المستخدمة في النماذج 4.894 خصائص فريدة.
لإجراء التنبؤات على مدار “ن” سنوات في المجموعة المصابة بمرض ألزهايمر، استُخدمت نوافذ زمنية ممتدة بين 2002 وسنة الحدوث. في المجموعة غير المصابة، أُخذت البيانات من 2002 وحتى 2010-“ن”.
أخيرًا، قبل تطبيق النموذج، أُنشئت مجموعات فرعية للتدريب والتحقق والاختبار باستخدام كل من مجموعة بيانات متوازنة مأخوذة عشوائيًا ومجموعة بيانات غير متوازنة.
تطبيق تقنيات التعلّم الآلي (ML)
أخيرًا، نُفذ تحليل البيانات بتطبيق تقنيات التعلّم الآلي مثل الغابة العشوائية، نموذج دعم المتجهات مع نواة خطية والانحدار اللوجستي.
أُجري التدريب والتحقق والاختبارات باستخدام التحقق المتقاطع الطبقي مع 5 تكرارات.
أُجريت عملية اختيار الميزات داخل عينات التدريب باستخدام طريقة عتبة التباين، وتم تقييم تعميم أداء النموذج على عينات الاختبار.
لفحص أداء النموذج، استُخدمت مقاييس مألوفة مثل المساحة تحت منحنى ROC، الحساسية والخصوصية.
لمزيد من التفاصيل حول كيفية إجراء هذه الدراسة، يُنصح بالرجوع إلى المقال الأصلي.
ما هي الاستنتاجات الرئيسية لهذه الدراسة حول التنبؤ بمرض ألزهايمر باستخدام التعلّم الآلي؟
تُبرز الدراسة إمكانات تقنيات التعلّم الآلي المستندة إلى البيانات كأداة واعدة لتنبؤ خطر الإصابة بالخرف بنمط ألزهايمر.
الميزة الرئيسية للدراسة
تُقدم هذه الدراسة ميزة كبيرة مقارنةً بالنهج الأخرى المعتمدة على معلومات مأخوذة من فحوصات التصوير العصبي أو التقييمات النفسية العصبية، إذ أُجريت باستخدام بيانات إدارية فقط.
بينما تركز دراسات أخرى على مجموعات سكانية توجد بالفعل في حالة خطر سريري حقيقية أو أبدت قلقًا كافيًا للاستشارة عند متخصص صحي، يستفيد هذا النهج من توافر البيانات الإدارية لتحديد المخاطر دون الحاجة لتقييمات سريرية سابقة.
| ألزهايمر المؤكد | ألزهايمر المحتمل | غير مصاب بألزهايمر | |
| العدد | 614 | 2026 | 38.710 |
| العمر | 80.7 | 79.2 | 74.5 |
| الجنس (ذكر، أنثى) | 229, 285 | 733, 1293 | 18.200, 20.510 |
فيما يلي جداول مقارنة بين الألزهايمر المؤكد وغير المصابين، والألزهايمر المحتمل وغير المصابين لسنوات التنبؤ 0 و4 مع جميع المصنّفات المستخدمة في الدراسة.
| سنوات التنبؤ | المصنّف | مقاييس | |||
| الدقة | AUC | الحساسية | الخصوصية | ||
| 0 سنوات | الانحدار اللوجستي | 0.76 | 0.794 | 0.726 | 0.793 |
| نموذج دعم المتجهات | 0.763 | 0.817 | 0.795 | 0.811 | |
| الغابة العشوائية | 0.823 | 0.898 | 0.509 | 0.852 | |
| 4 سنوات | الانحدار اللوجستي | 0.627 | 0.661 | 0.509 | 0.745 |
| نموذج دعم المتجهات | 0.646 | 0.685 | 0.538 | 0.754 | |
| الغابة العشوائية | 0.663 | 0.725 | 0.621 | 0.705 |
| سنوات التنبؤ | المصنّف | مقاييس | |||
| الدقة | AUC | الحساسية | الخصوصية | ||
| 0 سنوات | الانحدار اللوجستي | 0.763 | 0.783 | 0.689 | 0.783 |
| نموذج دعم المتجهات | 0.734 | 0.794 | 0.652 | 0.816 | |
| الغابة العشوائية | 0.788 | 0.850 | 0.723 | 0.853 | |
| 4 سنوات | الانحدار اللوجستي | 0.611 | 0.644 | 0.516 | 0.707 |
| نموذج دعم المتجهات | 0.601 | 0.641 | 0.465 | 0.738 | |
| الغابة العشوائية | 0.641 | 0.683 | 0.603 | 0.679 |
كلتا الجدولين المعروضين هما تبسيط لجدوال المقال الأصلي. في هذه الحالة، تم تقليل عدد السنوات إلى اثنتين فقط (0 و4 سنوات) لسنوات التنبؤ.
النتائج المتعلقة بالتنبؤ
نقطة بارزة أخرى في المقال هي الميزات المهمة المكتشفة للتنبؤ. وُصفت هذه بأنها مرتبطة بطريقة إيجابية أو سلبية بحدوث مرض ألزهايمر. بعض السمات المرتبطة إيجابيًا بتطور المرض تشمل العمر، وجود بروتين في البول ووصف دواء الزوتيبين (مضاد للذهان).
بالمقابل، تم اكتشاف سمات ارتبطت سلبًا بحدوث المرض، مثل انخفاض الهيموغلوبين، وصف نيكاميتاتو سترات (موسع للأوعية)، الاضطرابات التنكسية في الجهاز العصبي واضطرابات الأذن الخارجية.
علاوة على ذلك، اختبروا النموذج التنبؤي باستخدام أفضل 20 سمة فقط، ووجدوا أن دقة النموذج للسنوات 0 و1 كانت مشابهة جدًا للأصلية.
هل من الممكن الكشف بالاعتماد على بيانات صحية إدارية فقط؟
لذلك، استنتاج الدراسة هو أن الكشف عن الأفراد المعرضين لخطر الإصابة بألزهايمر بالاعتماد فقط على البيانات الصحية الإدارية ممكن. مع ذلك، يترك المؤلفون احتمال أن دراسات مستقبلية في دول وأنظمة صحية مختلفة قد تؤكد هذه النتائج. إن تكرارها سيكون إنجازًا يتيح كشفًا مبكرًا وأكثر دقة للأشخاص المعرضين للخطر.
أين يمكن لـ NeuronUP أن تسهم في دراسة مثل هذه؟
NeuronUP تمتلك خبرة علمية في مجالين رئيسيين:
- تقديم الدعم لمجموعات البحث المهتمة بالتكنولوجيا،
- إجراء أعمالها البحثية الخاصة للنشر في دوريات ذات تأثير علمي مرتفع.
على وجه التحديد، بالنسبة للدراسات ذات الخصائص المماثلة لتلك المستعرضة في هذه المقالة، نعتقد أنه عند توافر مجموعات بيانات كبيرة مثل الموصوفة، فإن NeuronUP تمتلك الفريق والخبرة اللازمة لـ:
- من جهة، تنفيذ تقنيات متقدمة للتعلّم الآلي، مثل المذكورة في المقال؛
- ومن جهة أخرى، في تصميم الدراسة. أي أنها تمتلك فريقًا مؤهلاً لصياغة أسئلة مبنية على الأدبيات العلمية القائمة، وكذلك لإجراء دراسات موجهة بالبيانات.
تتمثل خصوصية الدراسات القائمة على البيانات في أنها مركزة على تحليل وتفسير البيانات. هذه النظرة تستند إلى استخدام كميات كبيرة من البيانات لاكتشاف أنماط واتجاهات خفية.
كان الوصول إلى التقنيات الجديدة وأساليب التحليل المتقدمة اللازمة للعمل مع مجموعات البيانات الضخمة هذه صعبًا لمعظم الباحثين حتى سنوات قليلة مضت. لذا، هذه النظرة مهمة وضرورية عندما تتوفر أحجام كبيرة من البيانات، لأنها قد تقدم استنتاجات جديدة لا يمكن التوصل إليها باستخدام طرق مستندة إلى النظرية فقط.
المراجع
- Park, J.H., Cho, H.E., Kim, J.H. et al. Machine learning prediction of incidence of Alzheimer’s disease using large-scale administrative health data. npj Digit. Med. 3, 46 (2020). https://doi.org/10.1038/s41746-020-0256-0
إذا أعجبتك هذه التدوينة حول التنبؤ بحدوث مرض ألزهايمر باستخدام التعلّم الآلي بالاعتماد على بيانات صحية إدارية على نطاق واسع، فمن المحتمل أن تهمك هذه المقالات من NeuronUP:
“تمت ترجمة هذا المقال. رابط المقال الأصلي باللغة الإسبانية:”
Predicción de la incidencia de la enfermedad de alzheimer mediante machine learning utilizando datos sanitarios administrativos a gran escala







استهلاك الكحول أثناء الحمل: التأثيرات على دماغ الجنين وخطر الإعاقة الذهنية
اترك تعليقاً