مسرد تعلُّم الآلة: تعزيز التعليم

تحتوي هذه الصفحة على عبارات مسرد المصطلحات التعليمية. للاطّلاع على كل عبارات مسرد المصطلحات، انقر هنا.

A

إجراء

#rl

في تعزيز التعلّم، الآلية التي ينتقل بها الوكيل بين دول بيئة. يختار الوكيل الإجراء باستخدام سياسة.

وكيل

#rl

فيتعزيز التعليم، الكيان الذي يستخدم سياسة لزيادة العائد المتوقّع بالإضافة إلى الانتقال من الولاية في البيئة.

ب

معادلة بيلمان

#rl

تعزيز التعلُّم التالي: يجب في ما يلي تعزيز الهوية التالية باستخدام الدالة Q المثالية:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

تُطبِّق خوارزميات تعزيز التعليم هذه الهوية لإنشاء التعلّم Q عبر قاعدة التعديل التالية:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

وبالإضافة إلى تعزيز التعلّم، توفّر معادلة جرس Belman تطبيقات للبرمجة الديناميكية. اطّلِع على مقالة Wikipedia بشأن Belman Equation.

ج

ناقل

#rl

مرادف لـ De-Q-Network.

د

شبكة عميقة (DQN)

#rl

في التعلّم Q، هي شبكة عصبونية عميقة تتوقّع دوال Q.

النقد هو مرادف لشبكة Q- يستخدم ديب.

رقم DQN

#rl

يشير الاختصار إلى Web - Q-Network.

E

بيئة

#rl

تعزيز التجربة التي تتضمّن الوكيل وتتيح للوكيل رصد حالة هذا العالم. على سبيل المثال، يمكن أن يكون العالم الممثّل لعبة مثل الشطرنج أو عالمًا ماديًا مثل المتاهة. عندما يُطبِّق الوكيل إجراء على البيئة، تنتقل البيئة بين الولايات.

الحلقة

#rl

تعزيز التعليم: كل محاولة من الوكيل لتعلّم بيئة متكرّرة

سياسة إبسيلون للطموح

#rl

تعزيز التعليم هو سياسة تتّبع سياسة عشوائية تتضمّن احتمالية الاحتمال أو سياسة الطموح بخلاف ذلك. على سبيل المثال، إذا كان الاسم الحقيقي 0.9، تتّبع السياسة سياسة عشوائية بنسبة 90% من الوقت وسياسة طموحة 10% من الوقت.

ومن خلال الحلقات المتتالية، تقلّل خوارزمية القيمة من قيمة إبسولون لتتحول من اتّباع سياسة عشوائية إلى اتباع سياسة طموحة. من خلال تغيير السياسة، يستكشف الوكيل البيئة بشكل عشوائي، ثم يستغل نتائج الاستكشاف العشوائي.

إعادة تشغيل التجربة

#rl

تعزيز التعليم هو أسلوب DQN يُستخدم لتقليل الارتباطات الزمنية في بيانات التدريب. يخزّن الوكيل حالة النقل في مخزن مؤقت لإعادة التشغيل، ثم ينقل عمليات الانتقال من المخزن المؤقت لإعادة التشغيل لإنشاء بيانات التدريب.

G

سياسة طمّاع

#rl

تعزيز عملية التعلّم، هي سياسة تختار دائمًا الإجراء الذي يسجّل أعلى إرجاع متوقّع.

ن

عملية اتخاذ القرار في ماركوف (MDP)

#rl

رسم بياني يمثل نموذج اتخاذ القرار حيث يتم اتخاذ القرارات (أو الإجراءات) لعرض سلسلة من الولاية مع افتراض أن موقع Markov. في تعزيز التعلُّم، تعرض هذه التحولات بين الولايات مكافأة رقمية.

ملكية "ماركوف"

#rl

موقع معيّن بيئات يتم فيها تحديد عملية النقل بالكامل في الولاية من خلال المعلومات الضمنية في الحالة الحالية وإجراء الوكيل

P

سياسة

#rl

تعزيز عملية التعلُّم، بدء عملية ربط Agent الاحتمالية من الولاية إلى الإجراءات

Q

دالة Q

#rl

في تعزيز التعلّم، الدالة التي تتوقّع الإرجاع المتوقّع نتيجة اتخاذ إجراء في حالة ثم اتّباع سياسة.

تُعرف الدالة Q- أيضًا باسم دالة قيمة الإجراء للحالة.

تعلُّم سين

#rl

في تعزيز التعلّم، هي خوارزمية تتيح لوكيل التعرّف على الدالة Q المثالية لأي عملية قرار ماركوف من خلال تطبيق معادلة بيلمان. تُشكّل عملية اتخاذ قرار "ماركوف" بيئة.

R

سياسة عشوائية

#rl

في تعزيز العملية التعليمية، يتم اختيار سياسة تختار إجراء بشكل عشوائي.

تعزيز التجربة (RL)

#rl

مجموعة من الخوارزميات التي تتعلّق بالسياسة المثلى، وهدفها هو زيادة الإرجاع إلى أقصى حد عند التفاعل مع بيئة. على سبيل المثال، تكون المكافأة النهائية لمعظم الألعاب هي النصر. يمكن أن تصبح أنظمة تعلُّم تعزيز الخبرة في لعب الألعاب المعقّدة من خلال تقييم تسلسلات حركات اللعبة السابقة التي أدّت إلى مكاسب وتسلسلات أدّت إلى خسائر في النهاية.

تعزيز التعلُّم من خلال الملاحظات البشرية (RLHF)

#generativeAI
#rl

استخدام الملاحظات والآراء من المصنِّفين لتحسين جودة ردود النموذج على سبيل المثال، يمكن لآلية RLHF أن تطلب من المستخدمين تقييم جودة استجابة النموذج باستخدام رمز 👍 أو 👎. ويمكن للنظام بعد ذلك ضبط ردوده المستقبلية بناءً على هذه الملاحظات.

إعادة تشغيل المخزن المؤقت

#rl

في خوارزميات تشبه DQN، يتم استخدام الذاكرة التي يستخدمها الوكيل لنقل حالات النقل للاستخدام في إعادة تشغيل التجربة.

return

#rl

لتعزيز التعلّم، وفقًا لسياسة معيّنة وحالة معيّنة، يكون العائد هو مجموع المكافآت التي يتوقّع الوكيل تلقّيها عند اتّباع السياسة من الحالة حتى نهاية الحلقة. ويراعي الوكيل الطبيعة المتأخرة للمكافآت المتوقّعة من خلال خصم المكافآت وفقًا لعمليات الانتقال المتعلّقة بالولاية واللازمة للحصول على المكافأة.

لذلك، إذا كان عامل الخصم هو \(\gamma\)، \(r_0, \ldots, r_{N}\) ويشير إلى المكافآت حتى نهاية الحلقة، سيتم احتساب العائد على النحو التالي:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

مكافأة

#rl

تعزيز التعلُّم هو النتيجة الرقمية التي يتّخذها الإجراء في الحالة، على النحو المحدّد في البيئة.

ح

ولاية

#rl

لتعزيز التعلُّم، تمثّل هذه المعلّمة قيم المعلّمات التي تصف الإعدادات الحالية للبيئة التي يستخدمها الوكيل لاختيار إجراء.

وظيفة قيمة الإجراء

#rl

مرادف لدالة س.

T

التعلّم الجدولي باستخدام ميزة Q

#rl

في تعزيز التعلّم، نفِّذ التعلّم Q باستخدام جدول لتخزين دوال Q لكل مجموعة من الحالة والإجراء.

الشبكة الهدف

#rl

في التعلّم كيو د، هي شبكة عصبونية تُعدّ تقريبية تقريبية للشبكة العصبونية الرئيسية، حيث تنفّذ الشبكة العصبونية الأساسيّة دالة س أو سياسة. بعد ذلك، يمكنك تدريب الشبكة الرئيسية على قيم Q المتوقّعة في الشبكة المستهدَفة. لهذا السبب، يمكنك منع تكرار الملاحظات التي تحدث عندما تتدرّب الشبكة الرئيسية على قيم Q المتوقّعة وحدها. من خلال تجنُّب تقديم هذه الملاحظات، يمكنك تدريب زيادة الثبات.

شرط الإنهاء

#rl

في تعزيز التعلّم، الشروط التي تحدّد وقت انتهاء الحلقة، مثلاً عندما يصل الوكيل إلى حالة معيّنة أو يتجاوز عدد عمليات نقل الولاية. على سبيل المثال، في tic-tac-toe (تُعرف أيضًا باسم "عُرف وتقاطعات")، تنتهي الحلقة إما عندما يضع اللاعب علامة على ثلاث مسافات متتالية أو عندما يتم وضع علامة على جميع المسافات.

مسار

#rl

في تعزيز التعلّم، يتم عرض تسلسل من tups الذي يمثّل تسلسلاً لتسلسل الحالة المتمثل في الوكيل، حيث يتوافق كل عنصر أساسي مع الحالة الإجراء و المكافأة والحالة التالية للانتقال إلى حالة معيّنة.