תיאור קבוצת הנתונים של דיור קליפורניה

רבים מתרגילי הקורסים לקורסים המבוססים על למידת מכונה משתמשים במערך הנתונים של דיור בקליפורניה, המכיל נתונים שמקורם במפקד אוכלוסין בארה"ב משנת 1990. בטבלה הבאה מפורטים תיאורים, טווחי נתונים וסוגי נתונים לכל תכונה בקבוצת הנתונים.

כותרת עמודה תיאור טווח* סוג נתונים
longitude מידת המרחק של מערב בית, ערך שלילי יותר רחוק יותר מערבה
  • ערכי קווי האורך נעים בין -180 ל- +180
  • מינימום של קבוצת נתונים: -124.3
  • קבוצת נתונים לכל היותר: 114.3-
לצוף66
latitude מדידה של המרחק צפונה; צפון גבוה יותר
  • ערכי קווי הרוחב נעים בין -90 ל- +90
  • מינימום של קבוצת נתונים: 32.5
  • מקסימום נתונים: קבוצת נתונים 42.5
לצוף66
housingMedianAge הגיל החציוני של בית בתוך גוש בניינים; מספר נמוך יותר הוא בניין חדש יותר
  • מינימום קבוצת נתונים: 1.0
  • מקסימום נתונים: קבוצת נתונים: 52.0
לצוף66
totalRooms המספר הכולל של החדרים בגוש בניינים
  • דקות בקבוצת נתונים: 2.0
  • מקסימום קבוצת נתונים: 37937.0
לצוף66
totalBedrooms המספר הכולל של חדרי שינה בגוש בניינים
  • מינימום קבוצת נתונים: 1.0
  • מספר קבוצות נתונים: 6445.0
לצוף66
population המספר הכולל של אנשים שמתגוררים בגוש בניינים
  • מינימום קבוצת נתונים: 3.0
  • מספר קבוצות נתונים: 35682.0
לצוף66
households המספר הכולל של משקי בית, קבוצה של אנשים שמתגוררים בתוך יחידה ביתית
  • מינימום קבוצת נתונים: 1.0
  • מספר קבוצות נתונים: 6082.0
לצוף66
medianIncome הכנסה חציונית של משקי בית במרחק גוש בניינים (נמדד בעשרות אלפי דולרים)
  • מינימום קבוצת נתונים: 0.5
  • מקסימום: 15.0
לצוף66
medianHouseValue ערך חציון של משקי בית בתוך גוש בניינים (נמדד בדולר ארה"ב)
  • מינימום של קבוצת נתונים: 14999.0
  • קבוצת נתונים מקסימום: 500001.0
לצוף66

* הערכים המינימליים והמקסימליים בטבלה שלמטה התקבלו מהפנקסים לאימוני כושר באמצעות pandas.DataFrame.describe() בקבוצת הנתונים ' דיור בקליפורניה'

חומרי עזר

פייס קלי (Rolly) ורונלד בארי (Ronald Barry), "Sparse Autospaces Argression," נתונים סטטיסטיים ומכתבי הסתברות, כרך 33, מספר 3, 5 במאי 1997, עמוד 291-297.

בהמשך מפורטת מתודולוגיית הנתונים שמתוארת במאמר:

אספנו מידע לגבי המשתנים באמצעות כל קבוצות הגוש בקליפורניה, מתוך מפקד האוכלוסין משנת 1990. בדוגמה הזו, קבוצת חסימות כוללת בממוצע 1,425.5 אנשים שגרים באזור קומפקטי מבחינה גיאוגרפית. באופן טבעי, האזור הגיאוגרפי הכלול משתנה בניגוד לצפיפות האוכלוסייה. חישבנו את המרחקים בין הצריחים של כל קבוצת בלוקים, כפי שנמדדו בקו האורך ובקו הרוחב. לא כללנו את כל הקבוצות החסומות שמדווחות על אפס רשומות של המשתנים הבלתי-תלויים והתלויים. הנתונים הסופיים כוללים 20,640 תצפיות על 9 מאפיינים.