שינוי הנתונים: בדיקת ההבנה שלך

כדי להשיב על השאלה הבאה, לוחצים על החץ הרצוי:

אתם מעבדים מראש את הנתונים למודל רגרסיה. אילו טרנספורמציות חובה? יש לסמן את כל הסעיפים הרלוונטיים.
ממירים את כל התכונות שאינן מספריות לתכונות מספריות.
נכון. זהו שינוי חובה. צריך להמיר מחרוזות לייצוג מספרי כלשהו כי לא ניתן לבצע הכפלת מטריצות במחרוזת.
נרמל נתונים מספריים.
נרמל של נתונים מספריים יכול לעזור, אבל זהו שינוי איכות אופציונלי.

 

כדאי לעיין בתרשים שבהמשך. איזו שיטת שינוי נתונים תהיה הכי פרודוקטיבית בתור התחלה ומדוע? נניח שהיעד הוא למצוא קשר לינארי בין ה'חדרים' לבין 'מחיר הבית'.
ניקוד Z
ציון Z הוא אפשרות טובה אם החריגות לא קיצוניות. עם זאת, ישנם יוצאים מן הכלל.
תספורות
חיתוך הוא אפשרות טובה כאן, כי קבוצת הנתונים מכילה חריגות קיצוניות. עליך לתקן את נקודות הקיצון לפני יישום של נורמליזציה אחרת.
התאמת יומנים
שינוי ביומן הוא אפשרות טובה אם הנתונים שלך מאשרים את התפלגות לפי חוקי הכוח. עם זאת, הנתונים האלה תואמים להפצה רגילה ולא להתפלגות של חוקי צריכת החשמל.
קטגוריה (סליקה) עם גבולות כמותיים
קטגוריות דליות יכולות להיות גישה טובה לנתונים מעוותים, אבל במקרה הזה, ההטיה הזו נובעת מכמה ממצאים קיצוניים. מומלץ גם שהמודל ילמד קשר לינארי. לכן צריך לדאוג שהמספר של חדרים לחללים משותפים יהיה מספרי, ולא לשנות את הסיווג לקטגוריות. במקום זאת, כדאי לנסות שיטת נורמליזציה.

תרשים שבו מוצגת התדירות היחסית של חדרים שונים לאדם, שבו מדדים של מספר החדרים הוא מספר החדרים בבית, לחלק למספר האנשים באותו בית.  רוב הנתונים מפוזרים בין 0 ל-5 עם כמות קטנה של נקודות מ-5 עד 55.

 

כדאי לעיין בתרשים שבהמשך. איזו שיטת שינוי נתונים תהיה הכי פרודוקטיבית בתור התחלה ומדוע?
ניקוד Z
ציון Z הוא אפשרות טובה אם הקצוות החיצוניים לא קיצוניים ושצריך לחתוך. זה לא המצב כאן. השיפוע של הנתונים צריך להיות כרמז.
תספורות
חיתוך הוא אפשרות טובה כאשר יש נקודות קיצון. עם זאת, התרשים הזה מציג התפלגות של חוקי צריכת חשמל, וקיימת עוד שיטת נורמליזציה מתאימה יותר לטיפול בנושא.
התאמת יומנים
שינוי גודל היומנים הוא אפשרות טובה כאן, מאחר שהנתונים תואמים להתפלגות לפי חוקי צריכת החשמל.
קטגוריה (סליקה) עם גבולות כמותיים
יצירת קטגוריה של כמויות היא שיטה טובה לנתונים מעוותים. עם זאת, רצית למצוא את המודל כדי ללמוד קשר לינארי. לכן צריך לשמור על הנתונים המספריים ולא להוסיף אותם לקטגוריות. אפשר במקום זאת לנסות שיטת נורמליזציה.

תרשים עמודות שסרגלי העמודות שלו מרוכזים בקצה התחתון. בסרגל הראשון היו 1,200, בסרגל השני יש 460 מעלות, בסרגל השני יש 300 מעלות. בסולם של ה-15, עוצמה זו מגיעה לכ-30. זנב ארוך מאוד ממשיך במסלול של 90 ברים נוספים, עם העוצמה של הזנב הארוך אף פעם לא עולה על 10.

 

כדאי לעיין בתרשים שבהמשך. האם מודל לינארי יוכל לספק חיזוי טוב לגבי הקשר בין דחיסת יחסיים לבין מיילים עירוניים? אם לא, איך משנים את הנתונים כדי לאמן את המודל בצורה טובה יותר?
כן, המודל עשוי למצוא קשר לינארי וליצור חיזויים די מדויקים.
המודל ימצא קשר לינארי, אך המודל לא יוכל לספק חיזויים מדויקים מאוד. אפשר לנסות את מערך הנתונים הזה בתרגיל בניית המודלים כדי להבין טוב יותר את הסיבה לכך.
לא. סביר להניח שהמודל יהיה מדויק יותר אחרי התאמה לעומס.
אפשר להשתמש בהתאמה לינארית, אבל שיפוע הקשר בין יחס הדחיסה לבין ה-mpg של העיר ייראה זהה. מה שיעזור לך לראות הוא 2 מדרונות נפרדים – אחד לאשכול הנקודות ביחס הדחיסה התחתון והשני לגבוה.
לא. נראה שיש שתי התנהגויות שונות. הגדרת סף באמצע ושימוש בתכונה המחולקים לקטגוריות יכולות לעזור לך להבין מה קורה בשני התחומים האלה.
נכון. חשוב להבהיר למה כדאי להגדיר את ואיך להגדיר אותן. בתרגיל ליצירת מודלים של נתונים אפשר לקבל מידע נוסף על האופן שבו השיטה הזו עוזרת ליצור מודל טוב יותר.

תרשים פיזור המציג מהירות גבוהה למרחק מהיר נגד דחיסה. שני בלוקים ייחודיים של נתונים, האחד גדול בהרבה מהשני, מופיעים בשני קצות הציר של יחס הדחיסה. הגוש הגדול יותר מכסה את טווח היחסים של צפיפות 7-12, והגוש הקטן יותר מכסה את טווח הדחיסה בטווח 21-23. בדרך כלל, הקמ"ג מעט נמוך יותר בגוש הגדול יותר מאשר בגוש הקטן יותר.

 

צוות העמיתים מציג את ההתקדמות שלו בפרויקט למידת המכונה. הם חישבו אוצר מילים והאמנים מודל באופן לא מקוון. עם זאת, הם רוצים להימנע מבעיות שקשורות לחוסר עקביות, ולכן עכשיו הם מתכוונים לאמן מודל אחר באינטרנט. מה צפוי בהמשך?
המודל ימשיך להתעדכן כשנתונים חדשים יגיעו. הצוות השני יצטרך לעקוב כל הזמן אחרי נתוני הקלט.
אחד היתרונות המרכזיים של אימון דינמי הוא היעדר סטייה של מודל
יכול להיות שהאינדקסים שבהם הם משתמשים לא תואמים לווקאט.
נכון. מומלץ להזהיר את העמיתים שלך בנוגע לקשיים בהדרכה/בשירות, ואז להמליץ להם להשתתף בקורס של Google בנושא הכנת נתונים והנדסת תכונות ללמידת מכונה.