ייצוג

מודל למידת מכונה לא יכול לראות, לשמוע או לזהות דוגמאות לקלט באופן ישיר. במקום זאת, צריך ליצור ייצוג של הנתונים כדי לספק למודל נקודת תצפית מועילה על האיכויות העיקריות של הנתונים. כלומר, כדי לאמן מודל, צריך לבחור את קבוצת התכונות שמייצגות את הנתונים בצורה הטובה ביותר.

ייצוג

הרעיון הוא למפות כל חלק של הווקטור שמשמאל לשדה אחד או יותר אל וקטור המאפיין בצד ימין.

נתונים גולמיים ממופים לווקטור מאפיין באמצעות תהליך שנקרא הנדסת תכונות.
דוגמה לתכונה שניתן להעתיק ישירות מהנתונים הגולמיים
דוגמה לתכונת מחרוזת (שם רחוב) שלא ניתן להעתיק ישירות מהנתונים הגולמיים
מיפוי של ערך מחרוזת (
  • מילון ממפה כל שם רחוב למספר int ב- {0, ...,V-1}
  • עכשיו מייצגים וקטור בוהק אחד למעלה כ-<i>

ערכי התכונות צריכים להופיע עם ערך שונה מאפס יותר ממספר קטן של פעמים במערך הנתונים.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

לתכונות מסוימות צריכה להיות משמעות ברורה וברורה.

user_age:23

user_age:123456789

תכונות לא אמורות לקבל ערכי 'קסם'

(במקום זאת, יש להשתמש בתכונה בוליאנית נוספת, כמו Watch_time_is_defined!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

ההגדרה של התכונה לא אמורה להשתנות עם הזמן.

(שימו לב בהתאם למערכות למידת מכונה אחרות!)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

הפצה לא צריכה להיות חריגת קיצונית

מומלץ לשנות את כל התכונות לטווח דומה, כגון (1-, 1) או (0, 5).

התפלגות עם חריגים והתפלגות עם תקרה
תרשים שמציג התפלגות עם עקומה מתאימה בהתבסס על מיקום
תרשים שמציג התפלגות עם עקומה מתאימה בהתבסס על מיקום
  • יוצרים מספר סלים בוליאניים, שכל אחד מהם ממפה לתכונה ייחודית חדשה
  • מאפשרת למודל להתאים ערך שונה לכל סל

הכרת הנתונים

  • הצגה חזותית: הצבה של היסטוגרמות, דרגו מהגבוה לנמוך ביותר.
  • ניפוי באגים: דוגמאות כפולות? חסרים ערכים? יוצאי דופן? הנתונים תואמים למרכזי הבקרה? נתוני אימון ואימות דומים?
  • מעקב: כמויות התכונות, מספר הדוגמאות לאורך זמן?