קבוצת אימות: מחיצה אחרת

במודול הקודם, התבקשנו לבצע חלוקה למחיצות של קבוצת נתונים בקבוצת אימון ובקבוצת בדיקה. החלוקה למחיצות אפשרה לכם לאמן קבוצה אחת של דוגמאות ואז לבדוק את המודל ביחס לקבוצת דוגמאות אחרת. אם יש שתי מחיצות, תהליך העבודה יכול להיראות כך:

תרשים של תהליך עבודה שמורכב משלושה שלבים. 1. אימון מודל לערכת אימון. 2. מעריכים את המודל בקבוצת הבדיקה. 3. יש לשנות את המודל בהתאם לתוצאות בקבוצת הבדיקה. בצעו איטרציה ב-1, 2 ו-3, ובסופו של דבר בחרו במודל שמניב את הביצועים הטובים ביותר בקבוצת הבדיקה.

איור 1. תהליך עבודה אפשרי?

באיור, 'שינוי המודל' פירושו ביצוע התאמות בכל מה שקשור למודל שאפשר לחלום עליו – החל משינוי קצב הלמידה, הוספה והסרה של תכונות וכלה בעיצוב מודל חדש לגמרי. בסוף תהליך העבודה הזה, בוחרים את המודל עם הביצועים הכי טובים מקבוצת הבדיקה.

כדאי לחלק את קבוצת הנתונים לשתי קבוצות, אבל לא פתרון תווא. אפשר לצמצם משמעותית את הסיכוי להתאמה יתר על ידי חלוקת קבוצת הנתונים לשלוש קבוצות המשנה שמוצגות באיור הבא:

עמודה אופקית שמחולקת לשלושה חלקים: 70% מתוכם הוא קבוצת האימון, 15% קבוצת האימות ו-15% קבוצת הבדיקה

איור 2. פילוח של קבוצת נתונים אחת לשלוש קבוצות משנה.

משתמשים בקבוצת אימות כדי להעריך את התוצאות מקבוצת האימון. לאחר מכן, משתמשים בקבוצת הבדיקה כדי לבדוק שוב את ההערכה אחרי שהמודל "עבר" את קבוצת האימות. באיור הבא מוצג תהליך העבודה החדש:

תהליך העבודה דומה לאיור 1, אלא שבמקום להעריך את המודל מול קבוצת הבדיקה, תהליך העבודה מעריכים את המודל מול קבוצת האימות. לאחר מכן, אחרי שהנתונים לגבי קבוצת האימון ולגבי הגדרות האימות תואמים אלו את אלו, מאשרים את המודל מול קבוצת הבדיקה.

איור 3. תהליך עבודה טוב יותר.

תהליך העבודה המשופר הזה:

  1. בחרו את המודל שמניב את הביצועים הטובים ביותר בקבוצת האימות.
  2. בודקים שוב את המודל מול קבוצת הבדיקה.

זוהי תהליך עבודה טוב יותר, מכיוון שהוא יוצר פחות חשיפות לקבוצת הבדיקה.