פיצול הנתונים שלכם

כפי שמדגים הדוגמה של סיפור החדשות, חלוקה אקראית בלבד אינה תמיד הגישה הנכונה.

שיטה נפוצה במערכות מקוונות היא פיצול הנתונים לפי זמן, באופן הבא:

  • אוספים נתונים של 30 ימים.
  • הכשרה לשימוש בנתונים מ-1 עד 29 ימים.
  • מעריכים את הנתונים מהיום ה-30.

לגבי מערכות אונליין, נתוני האימון ישנים יותר מנתוני ההצגה, כך שהשיטה הזו מבטיחה ששיטת האימות תשקף את פרק הזמן שבין האימון לבין הצגת המודעות. עם זאת, פלחים שמבוססים על זמן פועלים בצורה הטובה ביותר עם מערכי נתונים גדולים מאוד, כמו למשל עם עשרות מיליוני דוגמאות. בפרויקטים עם פחות נתונים, החלוקות בסופו של דבר שונות לחלוטין בין הדרכה, אימות ובדיקה.

זכרו גם שהתקלה בפיצול הנתונים היא מפרויקט ספרות הספרות בלמידת מכונה, שמתואר בקורס לקורס למידת מכונה. הנתונים נחשבות על ידי אחד משלושת המחברים, לכן הנתונים נחלקו לשלוש קבוצות עיקריות. מאחר שהצוות יישם פיצול אקראי, הנתונים מכל קבוצה היו קיימים בקבוצות ההדרכה, ההערכה והבדיקה, כך שהמודל למד ממידע שלא היה לה בהכרח בזמן החיזוי. הבעיה הזו עשויה להתרחש בכל פעם שהנתונים מקובצים, בין אם כנתונים של סדרות זמנים או מקובצים לפי קריטריונים אחרים. ידע בתחום מאפשר לך לדעת איך לפצל את הנתונים.

לבדיקה נוספת, אפשר לראות את המודולים הבאים בקורס 'קורס למידת מכונה':