דף זה תורגם על ידי Cloud Translation API.

הגודל והאיכות של קבוצת נתונים

"אשפה בפח אשפה"

העמלה הקודמת חלה על למידה חישובית. אחרי הכול, המודל שלכם טוב כמו הנתונים שלכם. אבל איך מודדים את האיכות של קבוצת הנתונים ומשפרים אותה? וכמה נתונים נחוצים לך כדי לקבל תוצאות שימושיות? התשובות תלויות בסוג הבעיה שאתם פותרים.

הגודל של קבוצת נתונים

כלל אצבע הוא שהמודל צריך להתאמן לפחות על סדר עוצמה אחד לפחות, מאשר פרמטרים ניתנים לאימון. מודלים פשוטים בקבוצות נתונים גדולות בדרך כלל עולים על מודלים מפוארים בקבוצות נתונים קטנות. Google הצליחה בהצלחה במודלים פשוטים של רגרסיה לינארית בקבוצות גדולות של נתונים.

אילו נתונים נחשבים כ&חלקים? זה תלוי בפרויקט. מה הגודל היחסי של קבוצות הנתונים האלה?

מערך נתונים	גודל (מספר דוגמאות)
מערך נתונים של פרחי קשתית	150 (קבוצה כוללת)
MovieLens (מערך הנתונים של 20 מיליון)	20,000,263 (סה"כ קבוצה)
תשובה מהירה מ-Google Gmail	238,000,000 (מערך אימון)
Ngram של Google Books	468,000,000,000 (סה"כ קבוצה)
Google Translate	טריליונים

כפי שאפשר לראות, קבוצות הנתונים זמינות במגוון רחב של גדלים.

האיכות של קבוצת נתונים

לא כדאי להשתמש בהרבה נתונים אם זה לא נתונים טובים, וחשוב גם. אבל מה נחשב כ- "quality"? זהו מונח מעורפל. כדאי לאמץ גישה אמפירית ולבחור באפשרות המתאימה ביותר. מנקודת המבט הזו, קבוצת נתונים של איכות היא קבוצה שמאפשרת להצליח עם הבעיה העסקית שחשובה לכם. במילים אחרות, הנתונים טובים אם הם מבצעים את המשימה הרצויה.

עם זאת, בזמן איסוף הנתונים, קל יותר להגדיר איכות של תוכן מדויק יותר. היבטים מסוימים של איכות נוטים להתאים למודלים בעלי ביצועים טובים יותר:

אמינות
ייצוג תכונות
צמצום הטיה

אמינות

אמינות מתייחסת למידת האמינות של הנתונים שלכם. יש סיכוי גבוה יותר שמודל שמבוסס על קבוצת נתונים מהימנה יניב תוצאות חזויות מאשר מודל שעבר הכשרה על נתונים לא מהימנים. כשמודדים אמינות, צריך לבדוק את:

באיזו מידה השגיאות של תוויות נפוצות? לדוגמה, אם הנתונים שלכם סומנו על ידי בני אדם, לפעמים בני אדם טועים.
האם התכונות שלך רועשות? לדוגמה, מדידת ה-GPS משתנה. חלק מהרעש הוא תקין. אף פעם לא יימחקו לצמיתות קבוצת הנתונים של כל הרעש. אפשר לאסוף גם דוגמאות נוספות.
האם הנתונים מסוננים כראוי? לדוגמה, האם קבוצת הנתונים שלכם צריכה לכלול שאילתות חיפוש מבוטים? אם אתם בונים מערכת לזיהוי ספאם, סביר להניח שהתשובה היא 'כן', אבל אם אתם מנסים לשפר את תוצאות החיפוש עבור בני אדם, לא.

מה גורם לנתונים לא להיות מהימנים? קראו את המאמר קורס קריסה של למידת מכונה. חשוב לזכור שדוגמאות רבות בקבוצות נתונים לא אמינות בגלל אחת או יותר מהסיבות הבאות:

ערכים שהושמטו. למשל, אדם שכח להזין ערך עבור גיל הבית.
דוגמאות כפולות. לדוגמה, שרת מסוים העלה בטעות את אותם יומנים פעמיים.
התוויות לא תקינות. למשל, אדם תייג באופן שגוי תמונה של עץ אלון כמו אדר.
ערכי תכונות שגויים. לדוגמה, מישהו הקליד ספרה נוספת, או שמד החום הושמט בשמש.

Google Translate התמקד באמינות לבחירת "קבוצת המשנה הטובה ביותר" של הנתונים שלו. כלומר, לחלק מהנתונים היו תוויות באיכות גבוהה יותר מאשר בחלקים אחרים.

ייצוג תכונות

זכירת הקורס קורס למידת מכונה הוא הייצוג של מיפוי הנתונים לתכונות שימושיות. מומלץ לחשוב על השאלות הבאות:

כיצד מוצגים הנתונים במודל?
האם אתם צריכים לנרמל ערכים מספריים?
איך אתם צריכים לטפל בחריגים?

בקטע הזה סובב את הנתונים שלך נלמד על ייצוג תכונות.

הדרכה לעומת חיזוי

נניח שיש לך תוצאות נהדרות במצב אופליין. לאחר מכן, בניסויים בזמן אמת התוצאות האלה לא משתנות. מה יכול להיות שקרה?

הבעיה הזו מרמזת על ירידה בהדרכה/הצגה – כלומר, מתבצע חישוב של תוצאות שונות למדדים שלכם בזמן האימון בהשוואה לזמן ההצגה. הסיבות להטיה יכולות להיות קלות, אבל יש להן השפעה קטלנית על התוצאות. חשוב תמיד לבדוק אילו נתונים זמינים למודל שלך בזמן החיזוי. במהלך האימון, השתמשו רק בתכונות הזמינות לכם, ובדקו שקבוצת האימון מייצגת את תנועת הגולשים להגשה.

נניח שיש לך חנות וירטואלית וברצונך לחזות כמה כסף תרוויח ביום מסוים. המטרה שלך בלמידת מכונה היא לחזות את ההכנסה היומית באמצעות מספר הלקוחות כתכונה. באילו בעיות נתקלת? לוחצים על סמל הפלוס כדי לבדוק את התשובה.

הבעיה היא שלא ידוע לך כמה לקוחות הגיעו לזמן החיזוי, לפני שהמכירות היום הושלמו. לכן, התכונה הזו לא מועילה, גם אם היא חוזה בבירור את ההכנסה היומית שלכם. בדומה לכך, כשמאמנים מודל ומקבלים מדדי הערכה מדהימים (למשל 0.99 AUC), מחפשים את סוגי התכונות האלה שאפשר להוסיף לתווית.

מבוא ליצירת מערך הנתונים שלך

יומני הצטרפות