คําอธิบายชุดข้อมูลที่พักอาศัยในแคลิฟอร์เนีย

โปรแกรมหลักสูตรเร่งรัดเกี่ยวกับแมชชีนเลิร์นนิงจํานวนมากใช้ชุดข้อมูลของรัฐแคลิฟอร์เนีย ซึ่งมีข้อมูลมาจากสํามะโนประชากรของสหรัฐฯ ในปี 1990 ตารางต่อไปนี้อธิบายคําอธิบาย ช่วงข้อมูล และประเภทข้อมูลของฟีเจอร์แต่ละรายการในชุดข้อมูล

ชื่อคอลัมน์ คำอธิบาย ช่วง* ประเภทข้อมูล
longitude การวัดระยะห่างของบ้านฝั่งตะวันตก ยิ่งค่าติดลบอยู่ไกลไปทางตะวันตก
  • ค่าลองจิจูดมีตั้งแต่ -180 ถึง +180
  • ชุดข้อมูลขั้นต่ํา: -124.3
  • ชุดข้อมูลสูงสุด: -114.3
ทศนิยม 44
latitude การวัดระยะทางของทิศเหนือของบ้าน ค่าที่สูงกว่าจะอยู่ทางเหนือ
  • ค่าละติจูดมีค่าตั้งแต่ -90 ถึง +90
  • ชุดข้อมูลขั้นต่ํา: 32.5
  • ชุดข้อมูลสูงสุด: 42.5
ทศนิยม 44
housingMedianAge อายุมัธยฐานของบ้านภายในบล็อก ตัวเลขต่ําคืออาคารที่ใหม่กว่า
  • ชุดข้อมูลขั้นต่ํา: 1.0
  • ชุดข้อมูลสูงสุด: 52.0
ทศนิยม 44
totalRooms จํานวนห้องแชททั้งหมดภายในบล็อก 1 ห้อง
  • ชุดข้อมูลขั้นต่ํา: 2.0
  • ชุดข้อมูลสูงสุด: 37937.0
ทศนิยม 44
totalBedrooms จํานวนห้องนอนทั้งหมดภายใน 1 บล็อก
  • ชุดข้อมูลขั้นต่ํา: 1.0
  • ชุดข้อมูลสูงสุด: 6445.0
ทศนิยม 44
population จํานวนผู้คนทั้งหมดที่อาศัยอยู่ในบล็อก
  • ชุดข้อมูลขั้นต่ํา: 3.0
  • ชุดข้อมูลสูงสุด: 35682.0
ทศนิยม 44
households จํานวนครัวเรือนทั้งหมด กลุ่มบุคคลที่อาศัยอยู่ในบ้าน สําหรับบล็อก
  • ชุดข้อมูลขั้นต่ํา: 1.0
  • ชุดข้อมูลสูงสุด: 6082.0
ทศนิยม 44
medianIncome รายได้มัธยฐานของครัวเรือนภายในบล็อกบ้าน (วัดเป็นเงินหลายหมื่นดอลลาร์สหรัฐ)
  • ชุดข้อมูลขั้นต่ํา: 0.5
  • ชุดข้อมูลสูงสุด: 15.0
ทศนิยม 44
medianHouseValue มูลค่าบ้านเฉลี่ยสําหรับครัวเรือนภายในบล็อก (วัดเป็นดอลลาร์สหรัฐ)
  • ชุดข้อมูลขั้นต่ํา: 14999.0
  • ชุดข้อมูลสูงสุด: 500001.0
ทศนิยม 44

* ค่าต่ําสุดและสูงสุดในตารางด้านล่างมาจากสมุดบันทึกการออกกําลังกาย โดยใช้ pandas.DataFrame.describe() ในชุดข้อมูลที่พักอาศัยของรัฐแคลิฟอร์เนีย

ข้อมูลอ้างอิง

เพซ, อาร์. Kelley and Ronald Barry, "Sparse Spatial Autoregressions," สถิติและจดหมายความน่าจะเป็น ฉบับที่ 33 หมายเลข 3 วันที่ 5 พฤษภาคม 1997 หน้า 291-297

หลักการข้อมูลที่อธิบายไว้ในบทความมีดังต่อไปนี้

เรารวบรวมข้อมูลเกี่ยวกับตัวแปรโดยใช้กลุ่มการบล็อกทั้งหมดในแคลิฟอร์เนียจากสํามะโนประชากรช่วง 1990 ในตัวอย่างนี้ กลุ่มบล็อกโดยเฉลี่ยประกอบด้วย 1425.5 คนที่อาศัยอยู่ในพื้นที่ขนาดเล็กทางภูมิศาสตร์ โดยปกติ พื้นที่ทางภูมิศาสตร์ที่มีจะแตกต่างกันออกไปตามความหนาแน่นของประชากร เราคํานวณระยะทางระหว่างศูนย์เซนติกของกลุ่มการบล็อกแต่ละกลุ่ม เมื่อมีการวัดละติจูดและลองจิจูด เรายกเว้นรายการทั้งหมดที่บล็อกกลุ่มการรายงานเป็น 0 สําหรับตัวแปรอิสระและตัวแปรอิสระ ข้อมูลสุดท้ายมีการสังเกตการณ์ 20,640 รายการเกี่ยวกับลักษณะเฉพาะ 9 รายการ