הערכת מודלים באמצעות מדדים

ניפוי באגים במודל למידת מכונה עשוי להיראות מפחיד, אבל מדדי המודל מראים לכם איפה מתחילים. בקטעים הבאים נסביר איך להעריך את הביצועים באמצעות מדדים.

הערכת האיכות באמצעות מדדי מודלים

כדי להעריך את איכות המודל, המדדים הנפוצים הם:

כדי לקבל הנחיות לפרשנות של המדדים האלה, מומלץ לקרוא את התוכן המקושר בתוכן של למידת מכונה. לקבלת הנחיות נוספות לגבי בעיות ספציפיות, עיינו בטבלה הבאה.

הבעיה הערכת האיכות
רגרסיה מלבד הקטנת השגיאה האבסולוטית של כיכר ריבועית (MSE), יש להקטין את ה-MSE ביחס לערכי התוויות. לדוגמה, נניח שיש לך תחזית של מחירים לשני פריטים עם מחירים ממוצעים של 5 ו-100. בשני המקרים, נניח שה-MSE שלך הוא 5. במקרה הראשון, ה-MSE הוא 100% מהמחיר הממוצע שלך, ופירוש הדבר הוא שגיאה גדולה. במקרה השני, ה-MSE הוא 5% מהמחיר הממוצע, וזו שגיאה סבירה.
סיווג לכיתה אם התחזית היא מספר קטן של כיתות, יש לבחון מדדים לפי מחלקה. כשמבצעים חיזוי בכיתות רבות, אפשר להגיע לממוצע של מדדים לפי קטגוריה כדי לעקוב אחר מדדי הסיווג הכוללים. לחלופין, אפשר לתת עדיפות ליעדי איכות ספציפיים בהתאם לצרכים שלך. לדוגמה, אם מסווגים אובייקטים בתמונות, ניתנת עדיפות לאיכות הסיווג של אנשים באובייקטים אחרים.

בדיקת מדדים עבור פרוסות נתונים חשובות

אחרי שהמודל באיכות גבוהה, הביצועים עדיין עשויים להיות נמוכים בקבוצות משנה של נתונים. לדוגמה, חיזוי חד-קרן חייב לחזות היטב גם במדבר סהרה וגם בעיר ניו יורק, ובכל שעה ביום. עם זאת, יש לכם פחות נתוני הדרכה למדבר סהרה. לכן, אתם רוצים לעקוב אחרי איכות המודל באופן ספציפי במדבר סהרה. קבוצות משנה כאלה של נתונים, כמו קבוצת המשנה שתואמת למדבר סהרה, נקראים פלחי נתונים. מומלץ לעקוב בנפרד אחר פלחי נתונים שבהם הביצועים חשובים במיוחד או אם הביצועים של המודל לא טובים.

כדי להבין אילו פלחי נתונים מעניינים אתכם, עליכם להבין את הנתונים בהתאם. לאחר מכן תוכלו להשוות בין המדדים של פלחי הנתונים לבין המדדים של קבוצת הנתונים כולה. בדיקה שהמודל שלכם מניב ביצועים טובים בכל פלחי הנתונים עוזרת להסיר את ההטיות. למידע נוסף, קראו את המאמר שימוש הוגן: הערכת הטיות.

מדדים מהעולם האמיתי

מדדי המודל לא בהכרח מודדים את ההשפעה בפועל של המודל. לדוגמה, אתם יכולים לשנות היפר-פרמטר ולהגדיל את ה-AUC, אבל איך הוא השפיע על חוויית המשתמש? כדי למדוד את ההשפעה בפועל, צריך להגדיר מדדים נפרדים. לדוגמה, אפשר לערוך סקר על משתמשים שרואים חיזוי של חד-קרן, כדי לראות אם הם ראו חד-קרן. מדידה של ההשפעה בפועל ממחישה את האיכות של גרסאות שונות של המודל.