कैलिफ़ोर्निया हाउसिंग डेटा सेट का ब्यौरा

मशीन लर्निंग क्रैश कोर्स प्रोग्रामिंग की कई कसरतों में कैलिफ़ोर्निया के हाउसिंग डेटा सेट का इस्तेमाल किया गया है. इसमें 1990 की अमेरिका की जनगणना से तैयार किया गया डेटा शामिल है. इस टेबल में, डेटा सेट की हर सुविधा के लिए ब्यौरा, डेटा रेंज, और डेटा टाइप की जानकारी दी गई है.

कॉलम का शीर्षक जानकारी रेंज* डाटा किस तरह का है
longitude एक घर पश्चिम की ओर होने की माप; ज़्यादा पश्चिमी मान ज़्यादा दूर है
  • देशांतर वैल्यू -180 से लेकर +180 तक होते हैं
  • डेटा सेट की कम से कम सीमा: -124.3
  • ज़्यादा से ज़्यादा डेटा सेट: -114.3
फ़्लोट64
latitude एक उत्तर घर की दूरी का माप है; ज़्यादा मान उत्तर की ओर है
  • अक्षांश के मान -90 से लेकर +90 तक होते हैं
  • डेटा सेट कम से कम: 32.5
  • डेटा सेट ज़्यादा से ज़्यादा: 42.5
फ़्लोट64
housingMedianAge किसी ब्लॉक में एक घर की मीडियन उम्र; कम संख्या एक नई इमारत है
  • डेटा सेट कम से कम: 1.0
  • डेटा सेट ज़्यादा से ज़्यादा: 52.0
फ़्लोट64
totalRooms किसी ब्लॉक में कुल कमरे
  • डेटा सेट कम से कम: 2.0
  • डेटा सेट अधिकतम: 37937.0
फ़्लोट64
totalBedrooms किसी ब्लॉक में कुल बेडरूम
  • डेटा सेट कम से कम: 1.0
  • डेटा सेट अधिकतम: 6445.0
फ़्लोट64
population किसी ब्लॉक में रहने वाले लोगों की कुल संख्या
  • डेटा सेट कम से कम: 3.0
  • डेटा सेट अधिकतम: 35682.0
फ़्लोट64
households घरों की कुल संख्या, जिसमें एक घर में काम कर रहे लोगों का समूह शामिल है
  • डेटा सेट कम से कम: 1.0
  • डेटा सेट अधिकतम: 6082.0
फ़्लोट64
medianIncome घरों के एक ब्लॉक में घरों की मीडियन आय (दसियों रुपये में)
  • डेटा सेट कम से कम: 0.5
  • डेटा सेट ज़्यादा से ज़्यादा: 15.0
फ़्लोट64
medianHouseValue किसी ब्लॉक में मौजूद घरों की मीडियन वैल्यू (जिन्हें डॉलर में मेज़र किया जाता है)
  • डेटा सेट कम से कम: 14999.0
  • डेटा सेट अधिकतम: 500001.0
फ़्लोट64

* नीचे दी गई टेबल में, कम से कम और ज़्यादा से ज़्यादा वैल्यू को एक्सरसाइज़ notebooks से लिया गया है. इसके लिए, कैलिफ़ोर्निया हाउसिंग डेटा सेट में pandas.DataFrame.describe() का इस्तेमाल किया गया है

रेफ़रंस

रफ़्तार, आर. कैली, और रॉनल्ड बैरी, &Squose;स्पेशल ऑटोरेग्रेशन," आंकड़े, और संभावना पत्र, संख्या 33, संख्या 3, 5 मई 1997, पेज 291-297.

पेपर में बताए गए, डेटा के इस्तेमाल के बारे में नीचे बताया गया है:

हमने वैरिएबल के बारे में जानकारी इकट्ठा करने के लिए, कैलिफ़ोर्निया के 1990 की जनगणना के सभी ब्लॉक ग्रुप का इस्तेमाल किया था. इस नमूने में, औसतन एक ब्लॉक ग्रुप दिए गए हैं. इसमें, भौगोलिक रूप से छोटे इलाके में रहने वाले 1425.5 लोग शामिल हैं. स्वाभाविक रूप से, शामिल किए गए भौगोलिक क्षेत्र में जनसंख्या घनत्व के साथ उलटा होता है. अक्षांश और देशांतर की जानकारी के आधार पर, हमने हर ब्लॉक ग्रुप के बीच वाले हिस्से के बीच की दूरी का हिसाब लगाया है. हमने स्वतंत्र और निर्भर वैरिएबल के लिए सभी ब्लॉक ग्रुप की रिपोर्टिंग की कोई एंट्री नहीं जोड़ी. आखिरी डेटा में नौ विशेषताओं पर 20,640 टिप्पणियां शामिल थीं.