עבודה עם נתונים מספריים

מומחי למידת מכונה מקדישים הרבה יותר זמן להערכה, לניקוי ולטרנספורמציה של נתונים מאשר ליצירת מודלים. הנתונים חשובים כל כך, עד שהקורס הזה כולל שלוש יחידות מלאות בנושא:

היחידה הזו מתמקדת בנתונים מספריים, כלומר מספרים שלמים או ערכים של נקודות צפות שמתנהגים כמו מספרים. כלומר, הם יכולים להיות חיבור, ניתנים לספירה, סדורים וכן הלאה. ביחידה הבאה נסביר על נתונים קטגוריאליים, שיכולים לכלול מספרים שמתנהגים כמו קטגוריות. היחידה השלישית מתמקדת בהכנת הנתונים כדי להבטיח תוצאות באיכות גבוהה במהלך אימון המודל והערכתו.

דוגמאות לנתונים מספריים:

  • טמפרטורה
  • משקל
  • מספר האיילים ששוהים בשמורת טבע בחורף

לעומת זאת, מיקוד בארה"ב, למרות שהוא מספר בן חמש או תשע ספרות, לא מתנהג כמו מספר או מייצג יחסי מתמטיקה. המיקוד 40004 (במחוז נלסון, קנטקי) הוא לא פי שניים מהמיקוד 20002 (בוושינגטון הבירה). המספרים האלה מייצגים קטגוריות, במיוחד אזורים גיאוגרפיים, ונחשבים לנתונים קטגוריאליים.