تستخدم العديد من التمارين لبرمجة أعطال تعلُّم الآلة مجموعة بيانات الإسكان في كاليفورنيا التي تحتوي على بيانات مأخوذة من التعداد السكاني في عام 1990. يوفّر الجدول التالي أوصافًا ونطاقات بيانات وأنواع بيانات لكل ميزة في مجموعة البيانات.
عنوان العمود | الوصف | النطاق* | نوع البيانات |
---|---|---|---|
longitude |
قياس لمدى بُعد المنزل الغربي، وقيمة أكبر للغرب عن المسافة الغربية |
|
قيمة Flo64 |
latitude |
قياس لمدى بُعد المنزل الشمالي، ومعرفة قيمة أعلى بعيدًا عن الشمال |
|
قيمة Flo64 |
housingMedianAge |
متوسّط عمر أحد المنازل داخل قالب، ويشير الرقم الأقل إلى مبنى أحدث |
|
قيمة Flo64 |
totalRooms |
إجمالي عدد الغرف ضمن كتلة |
|
قيمة Flo64 |
totalBedrooms |
إجمالي عدد غرف النوم داخل مبنى واحد |
|
قيمة Flo64 |
population |
إجمالي عدد الأشخاص الموجودين داخل قالب |
|
قيمة Flo64 |
households |
إجمالي عدد الأُسر، وهي مجموعة من الأشخاص المقيمين ضمن وحدة سكنية |
|
قيمة Flo64 |
medianIncome |
متوسّط دخل الأسرة في مجموعة من المنازل (يتم قياسه بعشرات الآلاف من الدولارات الأمريكية) |
|
قيمة Flo64 |
medianHouseValue |
متوسط قيمة المنازل للأُسَر داخل قالب (يتم قياسه بالدولار الأمريكي) |
|
قيمة Flo64 |
* تم الحصول على الحد الأدنى والحد الأقصى للقيم في الجدول أدناه من مفكرات التمارين الرياضية
باستخدام pandas.DataFrame.describe()
في مجموعة بيانات الإسكان في كاليفورنيا.
مَراجع
بيس، آر "كيلي" و"رونالد باري"؛
في ما يلي منهجية البيانات الموضّحة في البحث:
لقد جمعنا معلومات عن المتغيّرات باستخدام جميع مجموعات الحظر في كاليفورنيا من التعداد السكاني في عام 1990. في هذا النموذج، تتضمن مجموعة الكتل "في المتوسط" 1425.5 شخصًا يعيشون في منطقة صغيرة جغرافيًا. بطبيعة الحال، تختلف المنطقة الجغرافية المضمّنة عكسيًا بالنسبة إلى كثافة السكان. تم حساب المسافات بين خطوط مركزية لكل مجموعة كتلة، كما يتم قياسها في خطوط الطول والعرض. لقد استبعدنا جميع مجموعات الحظر التي تبلغ القيمة صفرًا للمتغيرات المستقلة والمستقلة. وتضمّنت البيانات النهائية 20640 ملاحظة حول 9 خصائص.