רבים מתרגילי הקורסים לקורסים המבוססים על למידת מכונה משתמשים במערך הנתונים של דיור בקליפורניה, המכיל נתונים שמקורם במפקד אוכלוסין בארה"ב משנת 1990. בטבלה הבאה מפורטים תיאורים, טווחי נתונים וסוגי נתונים לכל תכונה בקבוצת הנתונים.
כותרת עמודה | תיאור | טווח* | סוג נתונים |
---|---|---|---|
longitude |
מידת המרחק של מערב בית, ערך שלילי יותר רחוק יותר מערבה |
|
לצוף66 |
latitude |
מדידה של המרחק צפונה; צפון גבוה יותר |
|
לצוף66 |
housingMedianAge |
הגיל החציוני של בית בתוך גוש בניינים; מספר נמוך יותר הוא בניין חדש יותר |
|
לצוף66 |
totalRooms |
המספר הכולל של החדרים בגוש בניינים |
|
לצוף66 |
totalBedrooms |
המספר הכולל של חדרי שינה בגוש בניינים |
|
לצוף66 |
population |
המספר הכולל של אנשים שמתגוררים בגוש בניינים |
|
לצוף66 |
households |
המספר הכולל של משקי בית, קבוצה של אנשים שמתגוררים בתוך יחידה ביתית |
|
לצוף66 |
medianIncome |
הכנסה חציונית של משקי בית במרחק גוש בניינים (נמדד בעשרות אלפי דולרים) |
|
לצוף66 |
medianHouseValue |
ערך חציון של משקי בית בתוך גוש בניינים (נמדד בדולר ארה"ב) |
|
לצוף66 |
* הערכים המינימליים והמקסימליים בטבלה שלמטה התקבלו מהפנקסים לאימוני כושר באמצעות pandas.DataFrame.describe()
בקבוצת הנתונים ' דיור בקליפורניה'
חומרי עזר
פייס קלי (Rolly) ורונלד בארי (Ronald Barry), "Sparse Autospaces Argression," נתונים סטטיסטיים ומכתבי הסתברות, כרך 33, מספר 3, 5 במאי 1997, עמוד 291-297.
בהמשך מפורטת מתודולוגיית הנתונים שמתוארת במאמר:
אספנו מידע לגבי המשתנים באמצעות כל קבוצות הגוש בקליפורניה, מתוך מפקד האוכלוסין משנת 1990. בדוגמה הזו, קבוצת חסימות כוללת בממוצע 1,425.5 אנשים שגרים באזור קומפקטי מבחינה גיאוגרפית. באופן טבעי, האזור הגיאוגרפי הכלול משתנה בניגוד לצפיפות האוכלוסייה. חישבנו את המרחקים בין הצריחים של כל קבוצת בלוקים, כפי שנמדדו בקו האורך ובקו הרוחב. לא כללנו את כל הקבוצות החסומות שמדווחות על אפס רשומות של המשתנים הבלתי-תלויים והתלויים. הנתונים הסופיים כוללים 20,640 תצפיות על 9 מאפיינים.