דף זה תורגם על ידי Cloud Translation API.

ייצוג

מודל למידת מכונה לא יכול לראות, לשמוע או לזהות דוגמאות לקלט באופן ישיר. במקום זאת, צריך ליצור ייצוג של הנתונים כדי לספק למודל נקודת תצפית מועילה על האיכויות העיקריות של הנתונים. כלומר, כדי לאמן מודל, צריך לבחור את קבוצת התכונות שמייצגות את הנתונים בצורה הטובה ביותר.

ייצוג

מנתונים גולמיים לתכונות

הרעיון הוא למפות כל חלק של הווקטור שמשמאל לשדה אחד או יותר אל וקטור המאפיין בצד ימין.

נתונים גולמיים ממופים לווקטור מאפיין באמצעות תהליך שנקרא הנדסת תכונות.

מנתונים גולמיים לתכונות

דוגמה לתכונה שניתן להעתיק ישירות מהנתונים הגולמיים

מנתונים גולמיים לתכונות

דוגמה לתכונת מחרוזת (שם רחוב) שלא ניתן להעתיק ישירות מהנתונים הגולמיים

מנתונים גולמיים לתכונות

מילון ממפה כל שם רחוב למספר int ב- {0, ...,V-1}
עכשיו מייצגים וקטור בוהק אחד למעלה כ-<i>

תכונות של תכונה טובה

ערכי התכונות צריכים להופיע עם ערך שונה מאפס יותר ממספר קטן של פעמים במערך הנתונים.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

תכונות של תכונה טובה

לתכונות מסוימות צריכה להיות משמעות ברורה וברורה.

user_age:23

user_age:123456789

תכונות של תכונה טובה

תכונות לא אמורות לקבל ערכי 'קסם'

(במקום זאת, יש להשתמש בתכונה בוליאנית נוספת, כמו Watch_time_is_defined!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

תכונות של תכונה טובה

ההגדרה של התכונה לא אמורה להשתנות עם הזמן.

(שימו לב בהתאם למערכות למידת מכונה אחרות!)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

תכונות של תכונה טובה

הפצה לא צריכה להיות חריגת קיצונית

מומלץ לשנות את כל התכונות לטווח דומה, כגון (1-, 1) או (0, 5).

הטריק של ביןין

תרשים שמציג התפלגות עם עקומה מתאימה בהתבסס על מיקום

הטריק של ביןין

יוצרים מספר סלים בוליאניים, שכל אחד מהם ממפה לתכונה ייחודית חדשה
מאפשרת למודל להתאים ערך שונה לכל סל

הרגלים טובים

הכרת הנתונים

הצגה חזותית: הצבה של היסטוגרמות, דרגו מהגבוה לנמוך ביותר.
ניפוי באגים: דוגמאות כפולות? חסרים ערכים? יוצאי דופן? הנתונים תואמים למרכזי הבקרה? נתוני אימון ואימות דומים?
מעקב: כמויות התכונות, מספר הדוגמאות לאורך זמן?

מרכז העזרה

תרגיל תכנות

הנדסת תכונות