Opis zbioru danych dotyczących nieruchomości mieszkalnych w Kalifornii

Wiele ćwiczeń z systemów uczących się dotyczących systemów uczących się wykorzystuje kalifornijski zbiór danych, który zawiera dane ze spisu ludności w 1990 roku. Poniższa tabela zawiera opisy, zakresy danych i typy danych dla każdej funkcji w zbiorze danych.

Tytuł kolumny Opis Zakres* Typ danych
longitude Miara odległości między domem a większą wartością ujemną
  • Długość geograficzna to wartości od -180 do +180
  • Min. zbiór danych: -124.3
  • Maks.zbiór danych: -114,3
liczba zmiennoprzecinkowa64
latitude Miara długości domu na północ; większa wartość oznacza północ
  • Szerokość geograficzna to od -90 do +90
  • Min.zbiór danych: 32,5
  • Maksymalny zbiór danych: 42,5
liczba zmiennoprzecinkowa64
housingMedianAge Mediana wieku domu w bloku; niższy numer to nowszy budynek
  • Min.zbiór danych: 1,0
  • Maksymalny zbiór danych: 52,0
liczba zmiennoprzecinkowa64
totalRooms Łączna liczba sal w bloku
  • Min.zbiór danych: 2,0
  • Maks.zbiór danych: 37937,0
liczba zmiennoprzecinkowa64
totalBedrooms Łączna liczba sypialni w bloku
  • Min.zbiór danych: 1,0
  • Maksymalny zbiór danych: 6445,0
liczba zmiennoprzecinkowa64
population Łączna liczba osób mieszkających w bloku
  • Min.zbiór danych: 3,0
  • Maks. 35682.0 zbioru danych
liczba zmiennoprzecinkowa64
households Łączna liczba gospodarstw domowych mieszczących się w mieszkaniu
  • Min.zbiór danych: 1,0
  • Maks. zbiór danych: 6082.0
liczba zmiennoprzecinkowa64
medianIncome Mediana dochodów gospodarstwa domowego w bloku mieszkaniowym (mierzona w dziesiątkach tysięcy dolarów amerykańskich)
  • Min.zbiór danych: 0,5
  • Maks.zbiór danych: 15,0
liczba zmiennoprzecinkowa64
medianHouseValue Mediana wartości domu w przypadku dochodu gospodarstwa domowego (mierzonego w dolarach amerykańskich)
  • Min.zbiór danych: 14999,0
  • Maks. zbiór danych: 500001.0
liczba zmiennoprzecinkowa64

* Wartości minimalne i maksymalne w tabeli poniżej zostały pobrane z notatek dotyczących ćwiczeń z użyciem narzędzia pandas.DataFrame.describe() w zbiorze danych dla kalifornijskich mieszkań.

Źródła

Tempo R. Kelley i Rald Barry, „Sparse Autobusressions Butres”; Statystyki i Prawdopodobieństwa

Oto metodologia dotycząca danych opisana w publikacji:

Zbieraliśmy informacje o zmiennych za pomocą wszystkich grup blokujących w Kalifornii w 1990 roku. W tym przykładzie grupa grupowa obejmuje średnio 1425,5 osób mieszkających w małym obszarze geograficznym. Przede wszystkim obszar geograficzny różni się w zależności od gęstości zaludnienia. Obliczyliśmy odległość między centroidami każdej grupy bloków mierzoną według szerokości i długości geograficznej. Wykluczyliśmy wszystkie grupy blokowania, które zgłaszają zerowe wpisy dla zmiennych niezależnych i zależnych. Dane końcowe obejmowały 20 640 obserwacji dotyczących 9 cech.