במודול הקודם, התבקשנו לבצע חלוקה למחיצות של קבוצת נתונים בקבוצת אימון ובקבוצת בדיקה. החלוקה למחיצות אפשרה לכם לאמן קבוצה אחת של דוגמאות ואז לבדוק את המודל ביחס לקבוצת דוגמאות אחרת. אם יש שתי מחיצות, תהליך העבודה יכול להיראות כך:
איור 1. תהליך עבודה אפשרי?
באיור, 'שינוי המודל' פירושו ביצוע התאמות בכל מה שקשור למודל שאפשר לחלום עליו – החל משינוי קצב הלמידה, הוספה והסרה של תכונות וכלה בעיצוב מודל חדש לגמרי. בסוף תהליך העבודה הזה, בוחרים את המודל עם הביצועים הכי טובים מקבוצת הבדיקה.
כדאי לחלק את קבוצת הנתונים לשתי קבוצות, אבל לא פתרון תווא. אפשר לצמצם משמעותית את הסיכוי להתאמה יתר על ידי חלוקת קבוצת הנתונים לשלוש קבוצות המשנה שמוצגות באיור הבא:
איור 2. פילוח של קבוצת נתונים אחת לשלוש קבוצות משנה.
משתמשים בקבוצת אימות כדי להעריך את התוצאות מקבוצת האימון. לאחר מכן, משתמשים בקבוצת הבדיקה כדי לבדוק שוב את ההערכה אחרי שהמודל "עבר" את קבוצת האימות. באיור הבא מוצג תהליך העבודה החדש:
איור 3. תהליך עבודה טוב יותר.
תהליך העבודה המשופר הזה:
- בחרו את המודל שמניב את הביצועים הטובים ביותר בקבוצת האימות.
- בודקים שוב את המודל מול קבוצת הבדיקה.
זוהי תהליך עבודה טוב יותר, מכיוון שהוא יוצר פחות חשיפות לקבוצת הבדיקה.