تتضمّن هذه الصفحة مسردًا حول مسرد المصطلحات حول "التعلّم". للاطّلاع على كلّ مصطلحات المصطلحات، انقر هنا.
أمبير
إجراء
في تعزيز التعليم، هي الآلية التي ينتقل بها الوكيل بين الحالات لـ البيئة. يختار الوكيل الإجراء باستخدام سياسة.
وكيل
في التعلّم لتعزيز الأداء، الكيان الذي يستخدم سياسة لزيادة عائد المتوقّع إلى أقصى حد من الانتقال بين حالات البيئة.
ب
معادلة بيلمان
في ما يتعلّق بالتعزيز، تكون الهوية التالية راضية عن طريق أفضل Q-Function:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
تُطبِّق خوارزميات التعلُّم هذه الهوية لإنشاء تعلُّم السؤال من خلال قاعدة التعديل التالية:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
وبالإضافة إلى تعزيز التعلّم، فإن معادلة Belman لديها تطبيقات للبرمجة الديناميكية. اطّلِع على مقالة Wikipedia حول Belman Equation.
ج
ناقِد
مُرادف Network Q-Network.
D
شبكة Q عميقة (DQN)
في التعلُّم من خلال Q، شبكة عصبية توقّع دوال Q.
نقد هو مرادف لشبكة كيبك عميقة.
رقم DQN
اختصار لـ Web Q-Network.
E
بيئة
تعزيز التعليم، وهو العالم الذي يحتوي على الوكيل ويتيح للوكيل مراقبة حالة العالم. على سبيل المثال، يمكن أن يكون العالم الممثّل لعبة، مثل الشطرنج، أو عالمًا فعليًا مثل المتاهة. عند تطبيق الوكيل إجراء على البيئة، تنتقل البيئة بين الولايات.
الحلقة
في إطار تعزيز التعلّم، تتم محاولة كل محاولة متكرّرة من الوكيل لتعلُّم البيئة.
سياسة جشعة إبسيلون
وتعزّز هذه السياسة أيضًا ما ورد في السياسة التي تتّبع سياسة عشوائية احتمالية أو سياسة جشع بخلاف ذلك. على سبيل المثال، إذا كان برنامج إبسيلون هو 0.9، تتّبع السياسة سياسة عشوائية بنسبة 90% من الوقت وسياسة جشع 10% من الوقت.
في الحلقات المتتالية، تقلّل الخوارزمية من قيمة الحلقة، وذلك من أجل اتّباع سياسة عشوائية باتّباع سياسة الجشع. من خلال نقل السياسة، يستكشف موظّف الدعم البيئة عشوائيًا أولاً، ثم يستغل نتائج الاستكشاف العشوائي.
إعادة تشغيل التجربة
خلال تعزيزات التعلّم، تم استخدام تقنية DQN لتقليل العلاقة الزمنية بين بيانات التدريب. تخزّن agent حالات الانتقال في التخزين المؤقت لإعادة التشغيل، ثم تأخذ عيّنات انتقالات من المخزن المؤقت لإعادة التشغيل لإنشاء بيانات التدريب.
أخضر
سياسة الجشع
وتشمل هذه السياسة سياسة تختار دائمًا الإجراء الذي يحقّق أعلى توقّع للسلعة.
ذكر
عملية اتخاذ القرار في ماركوف (MDP)
رسم بياني يمثّل نموذج اتخاذ القرار حيث يتم اتخاذ القرارات (أو الإجراءات) للتنقّل بين تسلسل الحالات مع افتراض أن خاصية ماركوف. في التعلّم المعزّز، تعرض عمليات النقل هذه بين الولايات مكافأة رقمية.
فندق "ماركوف"
موقع بيئات معيّنة، حيث يتم تحديد عمليات نقل الولاية بشكل كامل من خلال المعلومات الضمنية في الحالة الحالية والإجراء الخاص بالوكيل.
شخصي
سياسة
تعزيز تجربة التعلّم، مثل ربط agent's احتمالي من الحالات إلى الإجراءات
س:
دالة Q
في التعلّم في مجال تعزيز الأداء، تشير الدالة إلى توقّع الإرجاع المتوقّع من اتّخاذ إجراء في حالة ثم اتّباع سياسة معيّنة.
تُعرف دالة Q أيضًا باسم وظيفة قيمة الإجراء-الولاية.
تعلُّم الآلة
في التعزيز التعليمي، خوارزمية تسمح للوكيل بتعلّم الدالة Q المثلى لعملية اتخاذ قرار بشأن ماركوف عن طريق تطبيق معادلة بيلمان. تعتبر نماذج عملية اتخاذ قرار "ماركوف" بيئة.
أحمر
سياسة عشوائية
في التعلّم في مجال تعزيز الأداء، يتم وضع سياسة تختار إجراءً عشوائيًا.
تعزيز التعليم (RL)
مجموعة من الخوارزميات التي تتعلّق السياسة الأمثل، التي تهدف إلى زيادة عائدها عند التفاعل مع بيئة. على سبيل المثال، المكافأة النهائية لمعظم الألعاب هي الفوز. ويمكن أن تصبح أنظمة تعلُّم تعزيز الأداء خبيرة في أداء الألعاب المعقدة من خلال تقييم تسلسلات حركات الألعاب السابقة التي أدت في النهاية إلى تحقيق المكاسب والتسلسلات التي أدت في النهاية إلى خسائر.
إعادة تشغيل المخزن المؤقت
في خوارزميات DQN، تشبه الذاكرة التي يستخدمها الوكيل لتخزين انتقالات الحالة لاستخدامها في إعادة تشغيل التجربة.
return
وفي ما يتعلّق بالتعزيز، وفقًا لسياسة معيّنة وولاية معيّنة، تكون النتيجة هي مجموع كل المكافآت التي يتوقع الوكيل تلقّيها عند اتّباع السياسة من الحالة في نهاية الحلقة. ويراعي الوكيل طبيعة المكافآت المتوقعة المتأخرة من خلال خصم المكافآت وفقًا لانتقالات الولاية المطلوبة للحصول على المكافأة.
وبالتالي، إذا كان عامل الخصم هو \(\gamma\)، \(r_0, \ldots, r_{N}\) ويشير ذلك إلى المكافآت حتى نهاية الحلقة، يتم احتساب عملية الإرجاع على النحو التالي:
مكافأة
ضمن عملية تعزيز التعليم، تكون النتيجة الرقمية لاتخاذ إجراء في حالة معيّنة، كما هو موضّح في البيئة.
س
ولاية
لتعزيز التعلُّم، قيم المعلّمات التي تصف الإعدادات الحالية للبيئة، والتي يستخدمها agent لاختيار إجراء.
دالة قيمة إجراء الإجراء
مرادف للدالة Q-Function.
T
التعلّم اللوحي الجدولي
في قسم التعلُّم المعزَّز، يمكنك تنفيذ التعلّم المتقدّم باستخدام جدول لتخزين الدوال التي يتم تشغيلها باستخدام Q لكل مجموعة من الحالة والإجراء.
الشبكة المستهدَفة
في التعلّم المستند إلى مرحلة معيّنة، تمثل الشبكة العصبونية مقاربًا ثابتًا للشبكة العصبونية الرئيسية، حيث تطبّق الشبكة العصبونية الرئيسية دالة كيب أو سياسة. بعد ذلك، يمكنك تدريب الشبكة الرئيسية على قيم Q المتوقعة بواسطة الشبكة المستهدفة. وبالتالي، تمنع تكرار الملاحظات التي تحدث عندما تتدرّب الشبكة الرئيسية على قيم Q المتوقعة تلقائيًا. ويؤدي تجنب تقديم هذه الملاحظات إلى زيادة ثبات النظام.
شرط الإنهاء
في التعلّم لتعزيز الأداء، الشروط التي تحدّد وقت انتهاء الحلقة، مثلاً عند وصول الوكيل إلى حالة معيّنة أو تجاوز عدد معيّن من حالات النقل. على سبيل المثال، في المعلّمة tic-tac-toe (المعروفة أيضًا باسم "العَقَل والتقاطعات")، يتم إنهاء إحدى الحلقات إما عندما يضع اللاعب علامة على ثلاث مسافات متتالية أو عندما يتم وضع علامة على كل المسافات.
مسار
في التعلّم لتعزيز الأداء، يتم عرض سلسلة من المتغيّرات التي تمثّل تسلسلاً من حالات الانتقال من الوكيل، حيث يقابل كل تطابق معلومات الحالة، الإجراء، المكافأة، والحالة التالية لعملية نقل حالة معيّنة.