מערכי נתונים, הכללה והתאמה יתר

מבוא

יחידת הלימוד הזו מתחילה בשאלה מובילה. בוחרים באחת מהתשובות הבאות:

אם הייתם צריכים לתת עדיפות לשיפור אחד מהתחומים הבאים בפרויקט למידת המכונה שלכם, איזה מהם ישפיע בצורה המשמעותית ביותר?
שיפור האיכות של מערך הנתונים
הנתונים גוברים על הכול. לאיכות ולגודל של מערך הנתונים יש חשיבות רבה ממש אלגוריתם חדש שבו משתמשים כדי לבנות את המודל.
החלת פונקציית הפסד חכמה יותר על אימון המודל
נכון, פונקציית הפסדים טובה יותר יכולה לעזור למודל לאמן מהר יותר, אבל הוא עדיין רחוק לפני פריט אחר ברשימה הזו.

וזו שאלה מניחה עוד יותר:

נסו לנחש: כמה זמן בדרך כלל אתם משקיעים בהכנה ובטרנספורמציה של הנתונים בפרויקט למידת המכונה?
יותר ממחצית מזמן הפרויקט
כן, מומחי למידת מכונה מבלים את רוב הזמן שלהם ביצירת מערכי נתונים ובפיתוח מאפיינים.
פחות ממחצית משך הפרויקט
מתכננים דברים נוספים! בדרך כלל, 80% מהזמן בפרויקט של למידת מכונה מוקדש ליצירת מערכי נתונים ולטרנספורמציה של נתונים.

ביחידה הזו תלמדו על המאפיינים של מערכי נתונים ללמידת מכונה, ותקבלו מידע נוסף על הכנת הנתונים כדי להבטיח תוצאות באיכות גבוהה במהלך אימון המודל והערכתו.