Kaliforniya Konut Veri Kümesi Açıklaması

Makine Öğrenimi Kilitlenme Kursu Programlarının çoğunda, 1990 ABD nüfus sayımından alınan verileri içeren Kaliforniya veri kümesi kullanılır. Aşağıdaki tabloda, veri kümesindeki her bir özellik için açıklamalar, veri aralıkları ve veri türleri sunulmuştur.

Sütun başlığı Açıklama Aralık* Veri türü
longitude Bir evin ne kadar batı olduğunu ölçer; daha negatif bir değer daha batıdır
  • Boylam değerleri -180 ile +180 arasında değişir
  • Veri kümesi min.: -124,3
  • Veri kümesi maks.: -114,3
kayan noktalı64
latitude Bir evin ne kadar kuzeydeki uzaklığı; daha yüksek değer kuzey
  • Enlem değerleri -90 ile +90 arasında değişir
  • Minimum veri kümesi: 32,5
  • Veri kümesi maks.: 42,5
kayan noktalı64
housingMedianAge Bir bloktaki evin ortanca değeri (daha küçük bir sayı yeni bir binadır)
  • Veri kümesi min.: 1,0
  • Veri kümesi maks.: 52,0
kayan noktalı64
totalRooms Bir blok içindeki toplam oda sayısı
  • Minimum veri kümesi: 2,0
  • Veri kümesi maks.: 37937,0
kayan noktalı64
totalBedrooms Bir blok içindeki toplam yatak odası sayısı
  • Veri kümesi min.: 1,0
  • Veri kümesi maks.: 6445,0
kayan noktalı64
population Bir binanın içinde bulunan toplam kişi sayısı
  • Veri kümesi min.: 3,0
  • Veri kümesi maks.: 35682,0
kayan noktalı64
households Engelleme için toplam hane sayısı (ev biriminde ikamet eden bir grup kullanıcı)
  • Veri kümesi min.: 1,0
  • Veri kümesi maks.: 6082,0
kayan noktalı64
medianIncome Bir grup evin hane geliri ortanca değeri (on binlerce ABD doları cinsinden ölçülür)
  • Veri kümesi minimum: 0,5
  • Veri kümesi maks.: 15,0
kayan noktalı64
medianHouseValue Bir blok içindeki haneler için ortalama ev değeri (ABD doları cinsinden ölçülür)
  • Veri kümesi minimum: 14.999,0
  • Veri kümesi maksimum: 500.001,0
kayan noktalı64

* Aşağıdaki tabloda yer alan min. ve maks. değerler, Kaliforniya Konutları veri kümesinde pandas.DataFrame.describe() kullanılarak Egzersiz not defterlerinden alınmıştır

Referans

Tempo, R. Kelley ve Ronald Barry, "Sırasal Üç Boyutlu Otomatik Regresyonlar", İstatistikler ve Olasılık Mektupları, 33. Sayı, 3 Mayıs, 5 1997, s. 291-297.

Aşağıda, bu makalede açıklanan veri metodolojisi açıklanmaktadır:

Değişkenlerle ilgili olarak 1990 yılında Kaliforniya'daki tüm engelleme gruplarını kullanarak Kaliforniya'yı Bu örnekte bir engelleme grubu, coğrafi olarak küçük bir bölgede yaşayan 1.425,5 kişiyi içermektedir. Doğal olarak, dahil edilen coğrafi alan, nüfus yoğunluğuyla ters şekilde değişir. Uzaklık ve boylam olarak ölçülen her grup grubunun merkez noktaları arasındaki mesafeleri hesapladık. Bağımsız ve bağımlı değişkenler için sıfır giriş bildiren tüm engelleme gruplarını hariç tuttuk. Son veriler,9 özellikle ilgili 20.640 gözlem içeriyordu.