עבודה עם נתונים קטגוריאליים

לנתונים קטגוריאליים יש קבוצה ספציפית של ערכים אפשריים. לדוגמה:

  • המינים השונים של בעלי החיים בפארק לאומי
  • שמות הרחובות בעיר מסוימת
  • האם אימייל הוא ספאם או לא
  • הצבעים שבהם צבועים הצדדים החיצוניים של הבתים
  • מספרים מוגבלים, המתוארים במאמר עבודה עם מספרים נומריים מודול נתונים

מספרים יכולים להיות גם נתונים קטגוריים

אפשר להכפיל נתונים מספריים אמיתיים באופן משמעותי. לדוגמה, כדאי לקחת בחשבון שמזהה את הערך של בית על סמך השטח שלו. חשוב לזכור שמודל שימושי להערכת מחירי בתים בדרך כלל מבוסס על מאות מאפיינים. עם זאת, אם כל שאר הנתונים זהים, ערך הבית בשטח של 200 מטר רבוע צריך להיות כפול בערך מערך הבית הזהה בשטח של 100 מטר רבוע.

לעיתים קרובות יש לייצג תכונות שמכילות ערכים של מספרים שלמים נתונים קטגוריים במקום נתונים מספריים. לדוגמה, נניח שיש מאפיין של מיקוד שבו הערכים הם מספרים שלמים. אם אתם מייצגים מבחינה מספרית ולא באופן קטגורי, צריך לשאול את המודל כדי למצוא קשר מספרי בין מספרי מיקוד שונים. כלומר, אתם אומרים למודל להתייחס למיקוד 20004 כאל אות גדול פי שניים (או חצי) כמו של מיקוד 10002. ייצוג של מספרי מיקוד כנתונים קטגוריים מאפשר למודל לתת משקל לכל מספר מיקוד בנפרד.

קידוד

קידוד הוא המרה של נתונים קטגוריאליים או נתונים אחרים לווקטורים מספריים שאפשר לאמן עליהם מודל. ההמרה הזו נדרשת כי אפשר לאמן מודלים רק על ערכים של נקודה צפה. אי אפשר לאמן מודלים על מחרוזות כמו "dog" או "maple". במודול הזה מוסבר על שיטות קידוד שונות לנתונים קטגוריאליים.