דגימה ופיצול: בדיקת ההבנה שלכם

כדי להשיב על השאלה הבאה, לוחצים על החץ הרצוי:

נניח שיש לך מערך נתונים עם יחס שלילי של 1:1000 שלילי. לצערנו, המודל שלך תמיד חוזה את סיווג הרוב. איזו שיטה תעזור לך להתמודד עם הבעיה? חשוב לציין שהמודל מדווח על הסתברות לכיול.
אבקש ממך לדגום בלבד את הדוגמאות השליליות.
זו שיטה טובה, אבל צריך לשנות את התעריף הבסיסי של הדגם כך שהוא כבר לא יכויל.
בצעו דגימה נמוכה יותר של הדוגמאות השליליות (מחלקת הרוב). לאחר מכן, משפרים את המשקל של הדגימה לפי אותו גורם.
זו דרך יעילה להתמודד עם נתונים לא מאוזנים ועדיין לקבל התפלגות אמיתית של תוויות. חשוב לשים לב אם המודל משפיע על הסתברות לכיול או לא. אם לא צריך לכייל אותו, לא צריך לשנות את התעריף הבסיסי.
אילו טכניקות מאבדות נתונים מהמערך של מערך הנתונים? יש לסמן את כל הסעיפים הרלוונטיים.
סינון של פרטים אישיים מזהים (PII)
סינון של פרטים אישיים מזהים (PII) מהנתונים שלכם יכול להסיר מידע מהזנב, ולהטות את ההפצה.
שקלול
שקלול לדוגמה משנה את החשיבות של דוגמאות שונות, אבל הוא לא מאבד מידע. למעשה, הוספת המשקל לזנב יכולה לעזור למודל ללמוד את ההתנהגות על הזנב.
דגימת נתונים
קצה החלוקה של התכונות יאבד את דגימת הנתונים. עם זאת, מאחר שאנחנו בדרך כלל דוגמים את סיווג הרוב, ההפסד הזה בדרך כלל לא מהווה בעיה גדולה.
נורמליזציה
נורמליזציה פועלת בדוגמאות בודדות, לכן היא לא גורמת להטיה הדגימה.
בחרת לעבוד על בעיית סיווג, ופיצול שלך של הנתונים באופן אקראי לקבוצות הדרכה, הערכה ובדיקה. נראה שהמסווג שלך פועל בצורה מושלמת! אבל בסביבת הייצור, הסיווג הוא כשל הכולל. מאוחר יותר גילית שהבעיה נגרמה עקב הפיצול האקראי. אילו סוגי נתונים חשופים לבעיה זו?
נתונים של סדרות זמנים
חלוקה אקראית מפצלת כל אשכול בחלוקת הבדיקה/ברכב, ומספקת "תצוגה מקדימה מוקדמת" של המודל שלא תהיה זמינה בסביבת הייצור.
נתונים שלא משתנים עם הזמן
אם הנתונים לא ישתנו הרבה לאורך זמן, יש סיכוי גבוה יותר לפיצול אקראי. לדוגמה, יכול להיות שתרצו לזהות את הגזע של הכלב בתמונות, או לחזות את מספר המטופלים שיש להם סיכון לתפוגת הלב על סמך נתונים ביומטריים קודמים. בשני המקרים הנתונים בדרך כלל לא משתנים לאורך זמן, לכן לא אמורה להיות בעיה בפיצול אקראי.
קיבוצי נתונים
קבוצת הבדיקה תמיד תהיה דומה מדי לקבוצת האימון כי אשכולות של נתונים דומים נמצאים בשתי הקבוצות. לפי המודל הזה, יכולת החיזוי תהיה טובה יותר בהשוואה למודל הנוכחי.
נתונים עם פעילות (נתונים שמגיעים ברצף של לסירוגין בניגוד למקור מתמשך)
אשכולות של נתונים דומים (הרצף) יופיעו גם בהדרכות וגם בבדיקות. המודל יספק חיזויים טובים יותר בבדיקה בהשוואה לנתונים חדשים.