ערכות אימון וערכות בדיקה
אנחנו חוזרים ל-Playground כדי להתנסות בערכות אימונים ובערכות בדיקה.
לוחצים על סמל הפלוס כדי לקבל תזכורת על המשמעות של הנקודות הכתומות והכחולות.
בתצוגה החזותית:
- כל נקודה כחולה מייצגת דוגמה אחת לסוג נתונים אחד (לדוגמה,
ספאם).
- כל נקודה כתומה מייצגת דוגמה אחת לסוג נתונים אחר (לדוגמה, לא ספאם).
- צבע הרקע מייצג את החיזוי של המודל שבו יוצגו דוגמאות
לצבע הזה. רקע כחול מסביב לנקודה כחולה
מציין שהמודל מנבא בצורה נכונה את הדוגמה הזו. לעומת זאת,
רקע כתום מסביב לנקודה כחולה מציין שהמודל יוצר חיזוי שגוי עבור הדוגמה הזו.
תרגיל זה מספק גם ערכת בדיקה וגם קבוצת אימון, ששניהם נגזרים מאותו מערך נתונים. כברירת מחדל, הוויזואליזציה מציגה רק את קבוצת האימון. כדי לראות גם את קבוצת הבדיקה, לחצו על תיבת הסימון Show test data מתחת לתצוגה החזותית. בתחום התצוגה החזותית, חשוב לשים לב להבחנה הבאה:
- דוגמאות האימון מופיעות במסגרת לבנה.
- דוגמאות הבדיקה מופיעות במסגרת שחור.
משימה 1: מפעילים את Playground עם ההגדרות הנתונות כך:
- לוחצים על הלחצן 'הפעלה/השהיה':
- בודקים את השינויים בערכים של אובדן בחינות ואימון.
- כשהערכים של 'הפסד בבדיקות' ו'אימון' נעשים או משתנים רק פעם אחת, לוחצים שוב על הלחצן 'הפעלה/השהיה' כדי להשהות את Playground.
שימו לב לדלתא שבין אובדן בחינה לבין אובדן אימון. אנחנו ננסה לצמצם את ההפרש הזה במשימות הבאות.
משימה 2: מבצעים את הפעולות הבאות:
- לוחצים על לחצן האיפוס.
- צריך לשנות את קצב הלמידה.
- יש ללחוץ על הלחצן 'הפעלה/השהיה':
- נותנים ל-Playground לפעול במשך 150 תקופות של זמן מערכת לפחות.
האם ההפרש בין אובדן בחינות לבין אובדן אימון נמוך או גבוה יותר בשיעור הלמידה החדש? מה קורה כשמשנים גם את קצב הלמידה וגם את גודל האצווה?
משימה 3 אופציונלית: פס הזזה עם התווית אחוז נתוני האימון מאפשר לכם לשלוט ביחס של נתוני האימון לבדיקת נתוני האימון. לדוגמה, אם השיעור מוגדר ל-90%, אז 90% מהנתונים משמשים למערך האימון, ו-10% הנותרים משמשים לקבוצת הבדיקה.
בצע את הפעולות הבאות:
- צריך להוריד את הערך של 'אחוז נתוני האימון' מ-50% ל-10%.
- עורכים ניסויים בשיעור הלמידה ובגודל האצווה, ורושמים הערות לגבי
הממצאים.
האם שינוי האחוז של נתוני האימון משנה את הגדרות הלמידה האופטימליות שמצאתם במשימה 2? אם כן, למה?
לוחצים על סמל הפלוס של התשובה למשימה 1.
כששיעור הלמידה מוגדר ל-3 (ההגדרה הראשונית), אובדן המבחנים גבוה משמעותית מאשר אובדן האימון.
לוחצים על סמל הפלוס של התשובה למשימה 2.
כשמורידים את קצב הלמידה (למשל, ל-0.001), אובדן הבחינה יורד לערך שקרוב הרבה יותר ל'ירידה באימון'. ברוב הריצות, הגדלת האצווה לא משפיעה באופן משמעותי על אובדן אימון או על אובדן מבחן. עם זאת, באחוז קטן מהריצות, הגדלה של גודל האצווה ל-20 או יותר גורמת לירידה קלה ב'הפסד בבדיקות'.
קבוצות הנתונים של Playground נוצרות באופן אקראי. כתוצאה מכך, ייתכן שהתשובות שלנו לא תמיד יתאימו בדיוק לתשובות שלך.
לוחצים על סמל הפלוס של התשובה למשימה 3.
הורדה של אחוז הנתונים באימון מ-50% ל-10% מפחיתה באופן משמעותי את מספר נקודות הנתונים בקבוצת האימון. כשיש כל כך מעט נתונים, קבוצה גדולה וקצב למידה גבוה גורמים למודל האימון 'לקפוץ שוב ושוב מעל הנקודה המינימלית'.