מילון מונחים ללמידה חישובית: למידת חיזוק

הדף הזה מכיל מונחים של מילון הלמידה. לעיון בכל המונחים של מילון המונחים, לחצו כאן.

א'

פעולה

#rl

בקטע למידה מחזקת, המנגנון שבאמצעותו הסוכן עובר בין מצבים של הסביבה. הנציג בוחר את הפעולה באמצעות מדיניות.

נציג

#rl

בלמידה על חיזוק, הישות שמשתמשת במדיניות כדי למקסם את ההחזרה הצפויה במעבר ממצבים של הסביבה 10.

B

משוואה בלמן

#rl

בלמידה של חיזוק, לזהות הבאה היא תוצאה של פונקציית ה-Q האופטימלית:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

האלגוריתמים של חומרי חיזוק מחילים את הזהות הזו כדי ליצור Q-learning באמצעות כלל העדכון הבא:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

מעבר ללמידה מחוזקת, למשוואה של בלמן יש אפליקציות תכנות דינמיות. תוכלו להיעזר ב וויקיפדיה של משוואות בלמן.

ג'

מבקר

#rl

מילה נרדפת ל-Deep Q-Network.

D

רשת Wi-Fi עמוקה (DQN)

#rl

בלמידה חישובית, רשת נוירונים עם חיזויים של פונקציות Q.

Critic היא מילה נרדפת ל-Deep Q-Network.

דנמרק

#rl

ראשי תיבות של Deep Q-Network.

E

environment

#rl

בלימוד החיזוק, נמצא העולם שמכיל את הסוכן ומאפשר לסוכן לבחון את המצב של אותו עולם. לדוגמה, העולם המיוצג יכול להיות משחק כמו שחמט, או עולם פיזי כמו מבוך. כשהנציג מחיל פעולה על הסביבה, הסביבה עוברת בין המדינות.

episode

#rl

בלמידה לפי חיזוק, כל אחד מהניסיונות החוזרים של סוכן ללמוד סביבה.

המדיניות של אפסילון חמדנות

#rl

בלמידה לפי אמצעי חיזוק, המדיניות שפועלת בהתאם למדיניות אקראית עם הסתברות לאפסילון או עם מדיניות שארונית. לדוגמה, אם אפסילון הוא 0.9, המדיניות חלה על 90% מהפעמים על מדיניות אקראית, ועל מדיניות חמדנות 10% מהזמן.

במהלך רצף הפרקים, האלגוריתם מפחית את הערך של אפסילון כדי לא לעבור ממדיניות אקראית לציות למדיניות חמדנות. בהזזת המדיניות, הנציג חוקר תחילה את הסביבה באופן אקראי, ולאחר מכן מנצל לרעה את התוצאות של ניתוח אקראי.

חוויית הפעלה מחדש

#rl

בלמידת חיזוק, נעשה שימוש בטכניקה DQN כדי להפחית קשרים זמניים בנתוני האימון. הסוכן מאחסן מעברים של מצב במאגר נתונים להפעלה מחדש, ואז דוגם מעברים ממאגר הנתונים להפעלה מחדש כדי ליצור נתוני הדרכה.

G

המדיניות בנושא גורים

#rl

בלמידה על חיזוק, מדיניות תמיד בוחרת את הפעולה עם ההחזר הגבוה ביותר.

M

תהליך קבלת ההחלטות של מרקוב (MDP)

#rl

תרשים שמייצג את מודל קבלת ההחלטות שבו מתקבלות החלטות (או פעולות) על סמך רצף של מדינות בהנחה שהנכס מרקוב נמצא בבעלות. בלמידה לפי חיזוק, המעברים בין המדינות מחזירים תגמול מספרי.

נכס מרקוב

#rl

מאפיין של סביבות מסוימות, שבהן מעברי מצב נקבעים לחלוטין על סמך מידע שמשתמע מהמצב הנוכחי והפעולה של הנציג.

P

policy

#rl

בלמידת חיזוק, מיפוי ההסתברות של הסוכן ממצבים לפעולות.

Q

פונקציית Q

#rl

בלמידת חיזוק, הפונקציה שחוזה את ההחזרה הצפויה עם ביצוע פעולה במצב ולאחר מכן ביצוע של מדיניות נתונה.

פונקציית Q נקראת גם פונקציית ערך מצב-פעולה.

למידה מרחוק

#rl

בלמידת חיזוק, אלגוריתם שמאפשר לסוכן ללמוד את פונקציית ה-Q האופטימלית של תהליך קבלת ההחלטות של Markob על ידי החלת המשוואה Bellman. תהליך ההחלטה של מרקוב יוצר מודל של סביבה.

ימין

מדיניות אקראית

#rl

בלמידה על חיזוק, מופיעה מדיניות שבוחרת פעולה באופן אקראי.

למידת חיזוק (RL)

#rl

משפחת אלגוריתמים שלומדים מדיניות אופטימלית, כאשר היעד שלה הוא החזרה בזמן אינטראקציה עם סביבה. לדוגמה, הפרס המכריע ברוב המשחקים הוא ניצחון. מערכות למידה של חיזוק יכולות להפוך למומחים לשחק במשחקים מורכבים על ידי הערכה של רצפים של מהלכי משחק קודמים שהובילו בסופו של דבר לזכיות ולרצפים שבסופו של דבר הובילו להפסדים.

חיזוק כוחות ממשוב אנושי (RLHF)

#generativeAI
#rl

שימוש במשוב מהמדרגים האנושיים כדי לשפר את איכות התגובות של המודל. לדוגמה, מנגנון RLHF יכול לבקש ממשתמשים לדרג את איכות התגובה של מודל באמצעות hashtag או אמוג'י 👎. לאחר מכן המערכת יכולה לשנות את התשובות העתידיות שלה על סמך המשוב הזה.

הפעלה מחדש של מאגר הנתונים הזמני

#rl

באלגוריתמים דמויי DQN, הזיכרון המשמש את הסוכן לאחסון מעברי המצב לשימוש בהפעלה מחדש.

החזרה

#rl

בלמידה של חיזוק, בהינתן מדיניות מסוימת ומצב מסוים, ההחזרה היא הסכום של כל התגמולים שה-agent מצפה לקבל כשהם פועלים לפי המדיניות מהמצב ועד לסוף הפרק. הסוכן מביא בחשבון את עיכוב הצגת ההטבות הצפויות על ידי הנחות בפרסים בהתאם למעברי המדינות הנדרשים לקבלת התגמול.

לכן, אם גורם ההנחה הוא \(\gamma\), וגם \(r_0, \ldots, r_{N}\)מציינים את הפרסים עד סוף הפרק, אז חישוב ההחזרות יהיה:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

פרס

#rl

בלמידת חיזוק, התוצאה המספרית של ביצוע פעולה במדינה, כפי שהיא מוגדרת בסביבה.

S

הסמוי הסופי

#rl

בלמידה של חיזוק, ערכי הפרמטרים שמתארים את ההגדרה הנוכחית של הסביבה, שבהם הסוכן משתמש כדי לבחור פעולה.

פונקציית ערך מצב-פעולה

#rl

מילה נרדפת לQ-function.

T

למידה בטבלה מהטבלה

#rl

בלמידת חיזוק, מטמיעים Q-learn על ידי שימוש בטבלה כדי לאחסן את פונקציות ה-Q לכל שילוב של state ו-action.

מיקוד רשת

#rl

בלמידה עמוקה (De-Q-Deep), רשת עצבית שקרובה באופן יציב לרשת הנוירונים הראשית. ברשת העצבית הראשית מוטמעות פונקציה Q או מדיניות. לאחר מכן, ניתן לאמן את הרשת הראשית בערכי ה-Q החזויים על ידי רשת היעד. לכן מונעים את לולאת המשוב שמתרחשת כאשר הרשת הראשית מבצעת אימון על ערכי ה-Q החזויים בעצמה. אם נמנעים ממשוב, היציבות של האימון עולה.

תנאי סיום

#rl

בלמידה על חיזוק, התנאים קובעים מתי פרק יסתיים, למשל כשהנציג מגיע למצב מסוים או חורג ממספר הסף של מעברי המדינות. לדוגמה, ב-t-tac-toe (שנקרא גם nuts-crosss), פרק מסתיים כאשר שחקן מציין שלושה רווחים רצופים, או כשכל המרחבים מסומנים.

מסלול התקדמות

#rl

בלמידת חיזוק, רצף של צמדים שמייצגים רצף של מצבים של סוכן, כאשר כל גוון תואם את המצב, פעולה, תגמול ואת המצב הבא עבור מעבר של מדינה נתונה.