ما هو Q-learning في التعلم المعزز؟

خوارزمية تعلم معزز قدمها كريستوفر واتكينز عام 1989، تتعلم قيم الأفعال في حالات مختلفة عبر التجربة والخطأ، وتبني جدول Q لتقدير المكافآت المستقبلية لاختيار الأفعال المثلى.

كيف يرتبط Q-learning بتجارب بافلوف وسكينر؟

تستند جذور Q-learning إلى مبادئ التكييف الكلاسيكي لبافلوف والتعزيز السلوكي لسكينر، حيث تُشكل السلوكيات عبر الربط والمكافأة وتنمو إلى خوارزميات تعلم قائمة على العواقب.

كيف يعمل قانون تحديث Q في الخوارزمية؟

يُحدَّث Q(s,a) بمقدار يعتمد على معدل التعلم α، المكافأة r، عامل الخصم γ، وأعلى قيمة Q للحالة التالية، ما يسمح بتقريب القيمة المتوقعة للمكافآت المستقبلية.

ما هي استراتيجية ε-greedy في Q-learning؟

استراتيجية توازن بين الاستكشاف والاستغلال: باحتمالية ε يُختار فعل عشوائي لاكتشاف بدائل، وباحتمالية 1−ε يُختار الفعل الذي يملك أعلى قيمة Q لاستغلال المعرفة الحالية.

كيف تُطبق Q-learning في NeuronUP للتأهيل العصبي؟

تُستخدم لأتمتة تخصيص صعوبة الأنشطة عبر ضبط المعايير اعتماداً على أداء المستخدم، مما يحسّن التحدي والتحفيز ويتيح تخصيصاً وقتياً لخطط التأهيل العصبي.

ما هي قيود وتحديات تطبيق Q-learning في الأنشطة المعقدة؟

تشمل القيود قابلية التوسع عند زيادة تعقيد الألغاز، زمن حسابي مرتفع، حاجة لضبط المعلمات، واستمرار ارتفاع عدد الحركات، ما يتطلب تحسينات أو تقنيات مكملة.

تطبيق التعلم Q في إعادة التأهيل العصبي

تطور الـ Q-learning (التعلم Q بالإسبانية) بشكل كبير منذ التجارب السلوكية الأولى مثل التكييف الكلاسيكي لبافلوف، حتى أصبح إحدى التقنيات الأكثر أهمية في مجال التعلم الآلي. فيما يلي سنستعرض كيف كان تطوره وتطبيقه في التأهيل العصبي والتحفيز المعرفي.

تجارب بافلوف

إيفان بافلوف، عالم فيزيولوجيا روسي أواخر القرن التاسع عشر، يُعرف بوضع أسس علم النفس السلوكي من خلال تجاربه حول التكييف الكلاسيكي. في هذه التجارب، برهن بافلوف أن الكلاب يمكنها أن تتعلم ربط محفز محايد، مثل صوت جرس، بمحفز غير مشروط، مثل الطعام، محدثة استجابة غير مشروطة: اللعاب.

NeuronUP Labs Experimentos de Pavlov — تجارب بافلوف. NeuronUP.

كان هذا التجربة أساسياً لإظهار أن السلوك يمكن اكتسابه عن طريق الربط، وهو مفهوم حاسم أثر لاحقاً في تطوير نظريات التعلم المعزز.

نظريات التعلم المعزز

تركز هذه النظريات على كيفية تعلم البشر والحيوانات للسلوكيات بناءً على عواقب أفعالهم، وهو ما كان أساسياً في تصميم خوارزميات مثل Q-learning.

هناك بعض المفاهيم الأساسية التي يجب أن نألفها قبل المتابعة:

الوكيل: المسؤول عن تنفيذ الفعل.
البيئة: المحيط حيث يتحرك الوكيل ويتفاعل.
الحالة: الوضع الحالي للبيئة.
الفعل: القرارات الممكنة التي يتخذها الوكيل.
المكافأة: المكافآت التي تمنح للوكيل.

في هذا النوع من التعلم، يتخذ الوكيل أفعالاً في البيئة، ويتلقى معلومات على شكل مكافأة/عقاب ويستخدمها لتعديل سلوكه مع مرور الوقت.

تجربة كلاسيكية في التعلم المعزز هي تجربة صندوق سكينر، التي أجراها عالم النفس الأمريكي بوروس فريدريك سكينر عام 1938. في هذه التجربة، بيّن سكينر أن الفئران يمكنها أن تتعلم ضغط رافعة للحصول على طعام، باستخدام التعزيز الإيجابي كوسيلة لتشكيل السلوك.

تتضمن التجربة إدخال فأر في صندوق يحتوي على رافعة يمكنه ضغطها، وموزع طعام، وأحياناً ضوء ومكبر صوت.

كلما ضغط الفأر الرافعة، يُفرج عن قطعة طعام في الموزع. يعمل الطعام كتعزيز إيجابي، مكافأة على ضغط الرافعة. مع مرور الوقت، سيبدأ الفأر في ضغط الرافعة بتكرار أكبر، مما يدل على أنه تعلّم هذا السلوك عبر التعزيز.

هذا النوع من التعلم شكل القاعدة لخوارزميات التعلم الآلي مثل Q-learning، التي تتيح للآلات تعلم سلوكيات مثلى بشكل مستقل عن طريق منهجية التجربة والخطأ.

ما هو Q-learning؟

قدّم كريستوفر واتكينز خوارزمية Q-learning عام 1989 كخوارزمية تعلم معزز. تتيح هذه الخوارزمية للوكيل تعلم قيمة الأفعال في حالة معينة، مع تحديث معرفته باستمرار عبر الخبرة، مثل الفأر في صندوق سكينر.

على عكس تجارب بافلوف التي كان التعلم فيها قائماً على ارتباطات بسيطة، يستخدم Q-learning منهجية أكثر تعقيداً للتجربة والخطأ. يستكشف الوكيل أفعالاً مختلفة ويحدّث جدول Q الذي يخزن قيم Q، والتي تمثل المكافآت المستقبلية المتوقعة عند اتخاذ أفضل فعل في حالة معينة.

يُطبق Q-learning في مجالات متنوعة، مثل أنظمة التوصية (كما في نتفليكس أو سبوتيفاي)، والمركبات الذاتية (مثل الطائرات بدون طيار أو الروبوتات) وفي تحسين تخصيص الموارد. الآن سنستكشف كيف يمكن تطبيق هذه التقنية في التأهيل العصبي.

Q-learning و NeuronUP

من مزايا NeuronUP، القدرة على تخصيص الأنشطة وفق الاحتياجات المحددة لكل مستخدم. مع ذلك، قد يكون تخصيص كل نشاط مملًا بسبب العدد الكبير من المعايير التي يجب ضبطها.

يتيح Q-learning أتمتة هذه العملية، بضبط المعايير اعتماداً على أداء المستخدم في الأنشطة المختلفة. هذا يضمن أن تكون التمارين صعبة لكنها قابلة للتحقيق، مما يحسن الفعالية والتحفيز أثناء التأهيل.

كيف يعمل؟

في هذا السياق، الوكيل، الذي قد يُشَبَّه بالمستخدم الذي يتفاعل مع نشاط ما، يتعلّم اتخاذ قرارات مثلى في مواقف مختلفة لتجاوز النشاط بنجاح.

يتيح Q-learning للوكيل تجربة أفعال مختلفة بالتفاعل مع بيئته، وتلقي مكافآت أو عقوبات، وتحديث جدول Q الذي يخزن هذه القيم Q. تمثل هذه القيم المكافآت المستقبلية المتوقعة عند اتخاذ أفضل فعل في حالة معينة.

قاعدة تحديث Q-learning هي كما يلي:

\[Q(s,a) \leftarrow Q(s,a) + \alpha\bigl(r + \gamma \cdot \max_{a’}\bigl(Q(s’,a’)\bigr) – Q(s,a)\bigr)\]

حيث:

𝛂 – هو معدل التعلم.

r – هي المكافأة المستلمة بعد اتخاذ الفعل a من الحالة s.

𝛄 – هو عامل الخصم، الذي يمثل أهمية المكافآت المستقبلية.

s’ – هي الحالة التالية.

\(\max_{a’}\bigl(Q(s’,a’)\bigr)\) – هو أقصى قيمة Q للحالة التالية s’.

مثال لتطبيق في نشاط من NeuronUP

خذ نشاط NeuronUP المسمى “صور مبعثرة”، الذي يعمل على مهارات مثل التخطيط، والمهارات البنائية البصرية والعلاقة المكانية. في هذا النشاط، الهدف هو حل لغز تم خلطه وتقطيعه إلى قطع.

المتغيرات التي تحدد صعوبة هذا النشاط هي حجم المصفوفة (عدد الصفوف والأعمدة) وكذلك قيمة عشوائية ترتيب القطع (منخفضة، متوسطة، عالية أو عالية جداً).

لتدريب الوكيل على حل اللغز، أنشئوا مصفوفة مكافآت بناءً على الحد الأدنى لعدد الحركات اللازمة لحله، والمحدد بالصيغة التالية:

\[\mathrm{Min\_Attempts} \;=\;\left\lceil \frac{\mathrm{factor} * \mathrm{rows} * \mathrm{columns}}{5}\right\rceil,\quad \mathrm{factor}\in\{1,3,5,7\}\]

متغير factor يعتمد على متغير العشوائية. بعد إنشاء المصفوفة، طُبّق خوارزمية Q-learning لتدريب الوكيل على حل اللغز تلقائياً.

يتضمن هذا التكامل:

استرجاع قيمة Q: تقوم الدالة باسترجاع قيمة Q لزوج حالة-فعل من جدول Q. إذا لم يتم تدريب زوج الحالة-الفعل من قبل، تعيد 0. تبحث هذه الدالة عن المكافأة المتوقعة عند اتخاذ فعل معين في حالة معينة.
تحديث قيمة Q: تقوم الدالة بتحديث قيمة Q لزوج حالة-فعل بناءً على المكافأة المستلمة وأعلى قيمة Q للحالة التالية. تنفذ هذه الدالة قاعدة تحديث Q-learning المذكورة أعلاه.
اتخاذ القرار بشأن الفعل الذي يجب اتخاذه: تقرر الدالة أي فعل يجب اتخاذه في حالة معينة، باستخدام استراتيجية ε-greedy. توازن هذه الاستراتيجية بين الاستكشاف والاستغلال:
- الاستكشاف: يتكون من اختيار أفضل فعل معروف حتى الآن. باحتمالية ε (معدل الاستكشاف، قيمة بين 0 و1 تحدد احتمال استكشاف أفعال جديدة بدلاً من استغلال الأفعال المعروفة)، يُختار فعل عشوائي، مما يتيح للوكيل اكتشاف أفعال قد تكون أفضل.
- الاستغلال: يتكون من تجربة أفعال مختلفة عن أفضل الأفعال المعروفة لاكتشاف ما إذا كانت قد تقدم مكافآت أفضل في المستقبل. باحتمالية 1−ε، يختار الوكيل الفعل الذي يمتلك أعلى قيمة Q للحالة الحالية، مستخدماً معرفته المكتسبة: a’ = argmaxaQ(s,a). حيث a’ هو الفعل الذي يعظّم دالة Q في حالة s معينة. هذا يعني أنه، بالنظر إلى حالة s، اختر الفعل a الذي له أعلى قيمة Q.

تعمل هذه الدوال معاً للسماح لخوارزمية Q-learning بتطوير استراتيجية مثلى لحل اللغز.

تحليل مبدئي لتنفيذ الخوارزمية

طُبّقت الخوارزمية على لغز بمصفوفة 2×3 وبعامل صعوبة قيمته 1 (منخفض)، ما يقابل عددًا أدنى من المحاولات يساوي 2. شُغّلت الخوارزمية على نفس اللغز 20 مرة، مطبّقين نفس إعداد الخلط في كل مرة وتحديث جدول Q بعد كل خطوة. بعد 20 تنفيذًا، خُلط اللغز بتكوين مختلف وكرروا العملية، مما أدى إلى مجموع 2000 تكرار. كانت القيم الابتدائية للمعاملات هي:

مكافأة لحل اللغز: 100 نقطة
عقوبة لكل حركة: -1 نقطة

في كل خطوة، كانت تُطبق مكافأة أو عقوبة إضافية استناداً إلى عدد القطع الصحيحة، مما يسمح للوكيل بفهم تقدمه نحو حل اللغز. كان ذلك يُحسَب باستخدام الصيغة:

\[W \times \bigl(N_{\mathrm{correct}}^i \;-\; N_{\mathrm{correct}}^{\,i-1}\bigr)\]

حيث:

W هو عامل الوزن.
\(N_{\mathrm{correct}}^{\,i}\) هو عدد القطع الصحيحة بعد الحركة.
\(N_{\mathrm{correct}}^{\,i-1}\) هو عدد القطع الصحيحة قبل الحركة.

يوضح الرسم البياني أدناه عدد الحركات اللازمة لكل تكرار لكي يحل النموذج لغزاً حجمه 2×3. في البداية، يتطلب النموذج عدداً كبيراً من الحركات، مما يعكس افتقاره للمعرفة حول كيفية حل اللغز بكفاءة. ومع ذلك، مع تدريب خوارزمية Q-learning، يُلاحظ اتجاه تنازلي في عدد الحركات، مما يشير إلى أن النموذج يتعلم تحسين عملية الحل.

هذا الاتجاه مؤشر إيجابي على إمكانات الخوارزمية للتحسن مع مرور الوقت. مع ذلك، يجب مراعاة عدة قيود مهمة:

حجم اللغز المحدد: تُظهر الخوارزمية فعالية أساساً في الألغاز ذات أحجام محددة، مثل مصفوفة 2×3. عند تغيير حجم أو تعقيد اللغز، قد يتراجع أداء الخوارزمية بشكل كبير.
زمن الحساب: عند تطبيق الخوارزمية على تكوينات مختلفة أو أكثر تعقيداً، يزداد الوقت اللازم لإجراء الحسابات وحل اللغز بشكل ملحوظ. هذا يحد من قابليتها للتطبيق في الحالات التي تتطلب استجابات سريعة أو في الألغاز ذات التعقيد الأكبر.
عدد الحركات ما يزال مرتفعاً: رغم التحسن الملحوظ، يبقى عدد الحركات المطلوبة لحل اللغز مرتفعاً نسبياً حتى بعد عدة تكرارات. في التنفيذات الأخيرة، يحتاج النموذج في المتوسط من 8 إلى 10 حركات، مما يدل على وجود مجال لتحسين كفاءة التعلم.

تؤكد هذه القيود الحاجة إلى تحسين إضافي للخوارزمية، سواء عبر ضبط معلمات التعلم، تحسين بنية النموذج أو إدماج تقنيات مكملة تسمح بتعلم أكثر كفاءة وتكيّفاً مع تكوينات ألغاز مختلفة. على الرغم من هذه القيود، لا ينبغي أن نغفل عن المزايا التي يقدمها Q-learning في التأهيل العصبي، ومنها:

التخصيص الديناميكي للأنشطة: يستطيع Q-learning ضبط معلمات الأنشطة العلاجية تلقائياً بناءً على أداء المستخدم الفردي. هذا يعني أن الأنشطة يمكن تخصيصها في الوقت الحقيقي، مما يضمن أن يعمل كل مستخدم عند مستوى يكون تحدياً لكنه قابل للتحقيق. هذا مفيد بشكل خاص في التأهيل العصبي، حيث قد تختلف قدرات المستخدمين بشكل كبير وتتغير مع الزمن.
زيادة الدافعية والانخراط: مع تكييف الأنشطة باستمرار وفق مستوى مهارة المستخدم، يتم تجنب الإحباط الناتج عن مهام صعبة للغاية أو الملل الناتج عن مهام بسيطة للغاية. يمكن أن يزيد هذا بشكل كبير من دافعية المستخدم وانخراطه في برنامج التأهيل، وهو أمر بالغ الأهمية لتحقيق نتائج ناجحة.
تحسين عملية التعلم: باستخدام Q-learning، يمكن للنظام أن يتعلم من تفاعلات المستخدم السابقة مع الأنشطة، مما يحسن عملية التعلم والتأهيل. هذا يسمح بأن تكون التمارين أكثر فعالية، مركزة على المجالات التي يحتاج فيها المستخدم إلى مزيد من الاهتمام ويقلل الوقت اللازم لتحقيق الأهداف العلاجية.
كفاءة في اتخاذ القرارات السريرية: يمكن للمحترفين الاستفادة من Q-learning عن طريق الحصول على توصيات مبنية على البيانات حول كيفية ضبط العلاجات. هذا يسهل اتخاذ قرارات سريرية أكثر استنارة ودقة، مما يحسن جودة الرعاية المقدمة للمستخدم.
التحسين المستمر: مع مرور الوقت، يمكن للنظام المستند إلى Q-learning تحسين أداءه عبر تراكم البيانات وخبرة المستخدم. هذا يعني أنه كلما استُخدم النظام أكثر، أصبح أكثر فاعلية في التخصيص والتحسين، مما يوفر ميزة على المدى الطويل في عملية التأهيل العصبي.

خلاصة القول أن Q-learning تطور من جذوره في علم النفس السلوكي إلى أن أصبح أداة قوية في الذكاء الاصطناعي والتأهيل العصبي. قدرته على تكييف الأنشطة بشكل مستقل تجعله مورداً قيماً لتحسين فعالية العلاجات التأهيلية، رغم وجود تحديات لا تزال تحتاج إلى تجاوز لتحسين تطبيقه بشكل كامل.

المراجع

Bermejo Fernández, E. (2017). تطبيق خوارزميات التعلم المعزز على الألعاب.
Giró Gràcia, X., & Sancho Gil, J. M. (2022). الذكاء الاصطناعي في التعليم: البيانات الضخمة، الصناديق السوداء والحل التقني.
Meyn, S. (2023). استقرار Q-learning من خلال التصميم والتفاؤل. arXiv preprint arXiv:2307.02632.
Morinigo, C., & Fenner, I. (2021). نظريات التعلم. Minerva Magazine of Science, 9(2), 1-36.
M.-V. Aponte, G. Levieux y S. Natkin. (2009). قياس مستوى الصعوبة في ألعاب الفيديو للاعب الواحد. Entertainment Computing.
P. Jan L., H. Bruce D., P. Shashank, B. Corinne J., & M. Andrew P. (2019). تأثير ضبط الصعوبة التكيفي على فعالية لعبة لتطوير مهارات الوظائف التنفيذية لمتعلمين من أعمار مختلفة. Cognitive Development, pp. 49, 56–67.
R. Anna N., Z. Matei & G. Thomas L. تصميم الألعاب بشكل أمثل لأبحاث علوم الإدراك. Computer Science Division and Department of Psychology, University of California, Berkeley.
Toledo Sánchez, M. (2024). تطبيقات التعلم المعزز في ألعاب الفيديو.