Wiele ćwiczeń z systemów uczących się dotyczących systemów uczących się wykorzystuje kalifornijski zbiór danych, który zawiera dane ze spisu ludności w 1990 roku. Poniższa tabela zawiera opisy, zakresy danych i typy danych dla każdej funkcji w zbiorze danych.
Tytuł kolumny | Opis | Zakres* | Typ danych |
---|---|---|---|
longitude |
Miara odległości między domem a większą wartością ujemną |
|
liczba zmiennoprzecinkowa64 |
latitude |
Miara długości domu na północ; większa wartość oznacza północ |
|
liczba zmiennoprzecinkowa64 |
housingMedianAge |
Mediana wieku domu w bloku; niższy numer to nowszy budynek |
|
liczba zmiennoprzecinkowa64 |
totalRooms |
Łączna liczba sal w bloku |
|
liczba zmiennoprzecinkowa64 |
totalBedrooms |
Łączna liczba sypialni w bloku |
|
liczba zmiennoprzecinkowa64 |
population |
Łączna liczba osób mieszkających w bloku |
|
liczba zmiennoprzecinkowa64 |
households |
Łączna liczba gospodarstw domowych mieszczących się w mieszkaniu |
|
liczba zmiennoprzecinkowa64 |
medianIncome |
Mediana dochodów gospodarstwa domowego w bloku mieszkaniowym (mierzona w dziesiątkach tysięcy dolarów amerykańskich) |
|
liczba zmiennoprzecinkowa64 |
medianHouseValue |
Mediana wartości domu w przypadku dochodu gospodarstwa domowego (mierzonego w dolarach amerykańskich) |
|
liczba zmiennoprzecinkowa64 |
* Wartości minimalne i maksymalne w tabeli poniżej zostały pobrane z notatek dotyczących ćwiczeń z użyciem narzędzia pandas.DataFrame.describe()
w zbiorze danych dla kalifornijskich mieszkań.
Źródła
Tempo R. Kelley i Rald Barry, „Sparse Autobusressions Butres”; Statystyki i Prawdopodobieństwa
Oto metodologia dotycząca danych opisana w publikacji:
Zbieraliśmy informacje o zmiennych za pomocą wszystkich grup blokujących w Kalifornii w 1990 roku. W tym przykładzie grupa grupowa obejmuje średnio 1425,5 osób mieszkających w małym obszarze geograficznym. Przede wszystkim obszar geograficzny różni się w zależności od gęstości zaludnienia. Obliczyliśmy odległość między centroidami każdej grupy bloków mierzoną według szerokości i długości geograficznej. Wykluczyliśmy wszystkie grupy blokowania, które zgłaszają zerowe wpisy dla zmiennych niezależnych i zależnych. Dane końcowe obejmowały 20 640 obserwacji dotyczących 9 cech.