وصف مجموعة بيانات الإسكان في كاليفورنيا

تستخدم العديد من التمارين لبرمجة أعطال تعلُّم الآلة مجموعة بيانات الإسكان في كاليفورنيا التي تحتوي على بيانات مأخوذة من التعداد السكاني في عام 1990. يوفّر الجدول التالي أوصافًا ونطاقات بيانات وأنواع بيانات لكل ميزة في مجموعة البيانات.

عنوان العمود الوصف النطاق* نوع البيانات
longitude قياس لمدى بُعد المنزل الغربي، وقيمة أكبر للغرب عن المسافة الغربية
  • تتراوح قيم خط الطول من -180 إلى +180
  • الحد الأدنى لمجموعة البيانات: -124.3
  • الحد الأقصى لمجموعة البيانات: -114.3
قيمة Flo64
latitude قياس لمدى بُعد المنزل الشمالي، ومعرفة قيمة أعلى بعيدًا عن الشمال
  • تتراوح قيم خطوط العرض من -90 إلى +90
  • الحد الأدنى لمجموعة البيانات: 32.5
  • الحد الأقصى لمجموعة البيانات: 42.5
قيمة Flo64
housingMedianAge متوسّط عمر أحد المنازل داخل قالب، ويشير الرقم الأقل إلى مبنى أحدث
  • الحد الأدنى لمجموعة البيانات: 1.0
  • الحد الأقصى لمجموعة البيانات: 52.0
قيمة Flo64
totalRooms إجمالي عدد الغرف ضمن كتلة
  • الحد الأدنى لمجموعة البيانات: 2.0
  • الحد الأقصى لمجموعة البيانات: 37937.0
قيمة Flo64
totalBedrooms إجمالي عدد غرف النوم داخل مبنى واحد
  • الحد الأدنى لمجموعة البيانات: 1.0
  • الحد الأقصى لمجموعة البيانات: 6445.0
قيمة Flo64
population إجمالي عدد الأشخاص الموجودين داخل قالب
  • الحد الأدنى لمجموعة البيانات: 3.0
  • الحد الأقصى لمجموعة البيانات: 35682.0
قيمة Flo64
households إجمالي عدد الأُسر، وهي مجموعة من الأشخاص المقيمين ضمن وحدة سكنية
  • الحد الأدنى لمجموعة البيانات: 1.0
  • الحد الأقصى لمجموعة البيانات: 6082.0
قيمة Flo64
medianIncome متوسّط دخل الأسرة في مجموعة من المنازل (يتم قياسه بعشرات الآلاف من الدولارات الأمريكية)
  • الحد الأدنى لمجموعة البيانات: 0.5
  • الحد الأقصى لمجموعة البيانات: 15
قيمة Flo64
medianHouseValue متوسط قيمة المنازل للأُسَر داخل قالب (يتم قياسه بالدولار الأمريكي)
  • الحد الأدنى لمجموعة البيانات: 14999.0
  • الحد الأقصى لمجموعة البيانات: 500001.0
قيمة Flo64

* تم الحصول على الحد الأدنى والحد الأقصى للقيم في الجدول أدناه من مفكرات التمارين الرياضية باستخدام pandas.DataFrame.describe() في مجموعة بيانات الإسكان في كاليفورنيا.

مَراجع

بيس، آر "كيلي" و"رونالد باري"؛

في ما يلي منهجية البيانات الموضّحة في البحث:

لقد جمعنا معلومات عن المتغيّرات باستخدام جميع مجموعات الحظر في كاليفورنيا من التعداد السكاني في عام 1990. في هذا النموذج، تتضمن مجموعة الكتل "في المتوسط" 1425.5 شخصًا يعيشون في منطقة صغيرة جغرافيًا. بطبيعة الحال، تختلف المنطقة الجغرافية المضمّنة عكسيًا بالنسبة إلى كثافة السكان. تم حساب المسافات بين خطوط مركزية لكل مجموعة كتلة، كما يتم قياسها في خطوط الطول والعرض. لقد استبعدنا جميع مجموعات الحظر التي تبلغ القيمة صفرًا للمتغيرات المستقلة والمستقلة. وتضمّنت البيانات النهائية 20640 ملاحظة حول 9 خصائص.