מודלים של רגרסיה לוגיסטית עוברים אימון באותו תהליך כמו מודלים של רגרסיה לינארית, עם שני הבדלים עיקריים:
- מודלים של רגרסיה לוגיסטית משתמשים בLog Loss כפונקציית ההפסד במקום בsquared loss.
- חשוב מאוד להשתמש ברגולריזציה כדי למנוע התאמת יתר.
בקטעים הבאים נרחיב על שני השיקולים האלה.
אובדן לוגריתמי
במודול הרגרסיה הלינארית, השתמשתם בפונקציית הפסד של הפסד בריבוע (שנקראת גם הפסד L2). הפונקציה 'הפסד בריבוע' מתאימה במיוחד למודל לינארי שבו קצב השינוי של ערכי הפלט הוא קבוע. לדוגמה, במודל לינארי $y' = b + 3x_1$, בכל פעם שמגדילים את ערך הקלט $x_1$ ב-1, ערך הפלט $y'$ גדל ב-3.
עם זאת, קצב השינוי של מודל רגרסיה לוגיסטית לא קבוע. כמו שאפשר לראות בחישוב הסתברות, עקומת sigmoid היא בצורת S ולא ליניארית. כשהערך של הלוג-אודס ($z$) קרוב ל-0, עלייה קטנה ב-$z$ מובילה לשינויים גדולים בהרבה ב-$y$ מאשר כש-$z$ הוא מספר חיובי או שלילי גדול. בטבלה הבאה מוצג הפלט של פונקציית הסיגמואיד עבור ערכי קלט מ-5 עד 10, וגם הדיוק הנדרש כדי לתעד את ההבדלים בתוצאות.
קלט | פלט לוגיסטי | ספרות הדיוק הנדרשות |
---|---|---|
5 | 0.993 | 3 |
6 | 0.997 | 3 |
7 | 0.999 | 3 |
8 | 0.9997 | 4 |
9 | 0.9999 | 4 |
10 | 0.99998 | 5 |
אם השתמשתם בהפסד בריבוע כדי לחשב שגיאות עבור פונקציית הסיגמואיד, ככל שהפלט התקרב יותר ויותר ל-0
ול-1
, הייתם צריכים יותר זיכרון כדי לשמור על הדיוק שנדרש למעקב אחרי הערכים האלה.
במקום זאת, פונקציית האובדן לרגרסיה לוגיסטית היא Log Loss. המשוואה של Log Loss מחזירה את הלוגריתם של גודל השינוי, ולא רק את המרחק בין הנתונים לבין התחזית. החישוב של Log Loss מתבצע באופן הבא:
$\text{Log Loss} = -\frac{1}{N}\sum_{i=1}^{N} y_i\log(y_i') + (1 - y_i)\log(1 - y_i')$
where:
- \(N\) הוא מספר הדוגמאות המתויגות במערך הנתונים
- \(i\) הוא האינדקס של דוגמה במערך הנתונים (למשל, \((x_3, y_3)\) היא הדוגמה השלישית במערך הנתונים)
- \(y_i\) היא התווית של הדוגמה ה \(i\). מכיוון שמדובר ברגרסיה לוגיסטית, \(y_i\) חייב להיות 0 או 1.
- \(y_i'\) הוא החיזוי של המודל לגבי הדוגמה ה- \(i\)(בין 0 ל-1), בהינתן קבוצת התכונות ב- \(x_i\).
רגולריזציה ברגרסיה לוגיסטית
רגולריזציה, מנגנון להטלת עונש על מורכבות המודל במהלך האימון, חשובה מאוד במודלים של רגרסיה לוגיסטית. בלי רגולריזציה, האופי האסימפטוטי של רגרסיה לוגיסטית ימשיך להקטין את ההפסד לכיוון 0 במקרים שבהם למודל יש מספר גדול של תכונות. לכן, ברוב המודלים של רגרסיה לוגיסטית משתמשים באחת משתי האסטרטגיות הבאות כדי להפחית את מורכבות המודל:
- רגולריזציה של L2
- עצירה מוקדמת: הגבלת מספר שלבי האימון כדי לעצור את האימון בזמן שההפסד עדיין יורד.