Deskripsi Set Data Perumahan di California

Banyak Latihan Pemrograman Kursus Singkat Machine Learning menggunakan set data perumahan California, yang berisi data yang diambil dari Sensus Amerika Serikat tahun 1990. Tabel berikut memberikan deskripsi, rentang data, dan jenis data untuk setiap fitur dalam set data.

Judul kolom Deskripsi Rentang* Jenis data
longitude Ukuran seberapa jauh rumah berada di barat; nilai yang lebih negatif lebih jauh ke barat
  • Rentang nilai bujur dari -180 hingga +180
  • Set data min: -124,3
  • Set data maks: -114,3
float64
latitude Ukuran seberapa jauh rumah berada di bagian utara; nilai yang lebih tinggi lebih jauh ke utara
  • Rentang nilai lintang dari -90 hingga +90
  • Set data min: 32,5
  • Set data maks: 42,5
float64
housingMedianAge Usia rata-rata rumah dalam satu blok; angka yang lebih rendah adalah bangunan yang lebih baru
  • Set data min: 1,0
  • Set data maks: 52,0
float64
totalRooms Jumlah total ruang dalam satu blok
  • Set data min: 2,0
  • Set data maks: 37937,0
float64
totalBedrooms Jumlah total kamar tidur dalam satu blok
  • Set data min: 1,0
  • Set data maks: 6445,0
float64
population Jumlah total orang yang tinggal dalam satu blok
  • Set data min: 3,0
  • Kumpulan data maks: 35682,0
float64
households Jumlah total rumah tangga, yaitu sekelompok orang yang berada dalam satu unit rumah, untuk satu blok
  • Set data min: 1,0
  • Set data maks: 6082,0
float64
medianIncome Pendapatan rata-rata untuk anggota keluarga dalam satu blok rumah (diukur dalam puluhan ribu Dolar AS)
  • Set data min: 0,5
  • Set data maks: 15,0
float64
medianHouseValue Nilai rumah median untuk anggota keluarga dalam satu blok (diukur dalam Dolar AS)
  • Set data min: 14999,0
  • Kumpulan data maks: 500.001,0
float64

* Nilai min dan maks pada tabel di bawah diperoleh dari notebook Latihan menggunakan pandas.DataFrame.describe() pada set data Perumahan California

Referensi

Kecepatan, R. Kelley, dan Ronald Barry, "Sparse Spatial Autoregressions," Statistik dan Probabilitas Surat, Volume 33, Nomor 3, 5 Mei 1997, hlm. 291-297.

Berikut adalah metodologi data yang dijelaskan dalam makalah:

Kami mengumpulkan informasi tentang variabel menggunakan semua kelompok blok di California dari Sensus 1990. Dalam contoh ini, kelompok blok rata-rata menyertakan 1.425,5 individu yang tinggal di wilayah padat secara geografis. Secara alami, area geografis yang disertakan akan berbalik arah dengan kepadatan populasi. Kami menghitung jarak antar sentroid dari setiap kelompok blok yang diukur dalam garis lintang dan bujur. Kita tidak menyertakan semua grup blok yang melaporkan entri nol untuk variabel independen dan dependen. Data akhir berisi 20.640 pengamatan pada 9 karakteristik.