בנספח הזה מפורטים כמה פרטים נוספים על קצב הלמידה.
תזמון של ירידה בקצב הלמידה
הבעיה של מציאת המשפחה הכי טובה של תוכניות להפחתת קצב הלמידה היא בעיה פתוחה. לא ברור איך לבנות קבוצה של ניסויים קפדניים כדי לענות על השאלה הזו בביטחון. למרות שאנחנו לא יודעים מהו לוח הזמנים הכי טוב למשפחה, אנחנו בטוחים בדברים הבאים:
- חשוב להקפיד על לוח זמנים (לא קבוע).
- חשוב להתאים את לוח הזמנים הזה.
שיעורי למידה שונים מתאימים לשלבים שונים בתהליך האופטימיזציה. אם יש לוח זמנים כלשהו, סביר יותר שהמודל יגיע לשיעור למידה טוב.
הדעיכה הטובה ביותר של שיעור הלמידה שמוגדר כברירת מחדל
מומלץ להשתמש באחת מהמשפחות הבאות של שיעורי למידה כברירת מחדל:
- דעיכה לינארית
- דעיכה קוסינוסית
גם הרבה משפחות אחרות של לוחות זמנים כנראה מתאימות.
למה בחלק מהמאמרים יש תוכניות מורכבות של שיעורי למידה?
במאמרים אקדמיים רבים נעשה שימוש בתוכניות מורכבות של ירידה (decay) בקצב הלמידה (LR) בשלבים. קוראים רבים תוהים איך המחברים הגיעו ללוח זמנים כל כך מסובך. הרבה תוכניות מורכבות של דעיכת LR הן תוצאה של כוונון התוכנית כפונקציה של הביצועים של קבוצת האימות בצורה אד-הוקית. כלומר:
- מתחילים הרצת אימון יחידה עם דעיכה פשוטה של קצב הלמידה (או קצב למידה קבוע).
- ממשיכים להריץ את האימון עד שהביצועים נראים יציבים. במקרה כזה, צריך להשהות את האימון. לאחר מכן, אפשר להמשיך את האימון עם לוח זמנים של דעיכה תלולה יותר של קצב הלמידה (או קצב למידה קבוע קטן יותר) מהנקודה הזו. חוזרים על התהליך הזה (עד למועד הכנס או מועד ההשקה).
בדרך כלל לא מומלץ להעתיק את לוח הזמנים שמתקבל, כי לוח הזמנים האופטימלי תלוי בהרבה בחירות אחרות של היפרפרמטרים. מומלץ להעתיק את האלגוריתם שיצר את לוח הזמנים, אבל זה כמעט אף פעם לא אפשרי כשלוח הזמנים נוצר על ידי שיקול דעת אנושי שרירותי. אפשר להשתמש בסוג הזה של תזמון שרגיש לשגיאות אימות אם אפשר לבצע אותו באופן אוטומטי לחלוטין, אבל תזמונים שכוללים התערבות אנושית ומתבססים על שגיאות אימות הם בעייתיים וקשה לשחזר אותם, ולכן מומלץ להימנע מהם. לפני פרסום תוצאות שהתקבלו באמצעות תזמון כזה, כדאי לנסות לשחזר אותן באופן מלא.
איך כדאי לכוון את ההיפר-פרמטרים של Adam?
לא כל ההיפרפרמטרים ב-Adam חשובים באותה מידה. הכללים הבאים מתאימים ל'תקציבים' שונים של מספר הניסויים במחקר.
- אם יש פחות מ-10 ניסויים במחקר, כדאי לשנות רק את קצב הלמידה (הבסיסי).
- אם יש 10-25 ניסויים במחקר, כדאי לשנות את קצב הלמידה ואת
beta_1
. - אם יש לכם יותר מ-25 ניסויים, כדאי לשנות את קצב הלמידה,
beta_1
ו-epsilon
. - אם יש לכם הרבה יותר מ-25 ניסויים, כדאי גם לכוונן את
beta_2
.
קשה לספק כללים כלליים לגבי מרחבי חיפוש וכמה נקודות צריך לדגום ממרחב החיפוש, ולכן הכללים המנחים שמפורטים בקטע הזה הם כללים כלליים בלבד".