Sprawiedliwość: rozpoznawanie stron

Gdy analizujesz dane i chcesz je najlepiej reprezentować w modelu, musisz pamiętać o uczciwości i aktywnie sprawdzać potencjalne źródła błędów.

Gdzie może być odchylenie? Oto trzy sygnały ostrzegawcze, na które należy zwrócić uwagę w zbiorze danych.

Brak wartości cech

Jeśli Twój zbiór danych ma co najmniej jedną cechę bez wartości dla dużej liczby przykładów, może to oznaczać, że niektóre kluczowe cechy zbioru danych są niedostatecznie reprezentowane.

Poniższa tabela zawiera podsumowanie kluczowych statystyk dla podzbioru cech w zbiorze danych dla nieruchomości Kalifornia, przechowywanych w pandach DataFrame i wygenerowanych przez DataFrame.describe. Pamiętaj, że wszystkie funkcje mają count o wartości 17 000, co oznacza, że nie brakuje żadnych wartości:

longitude latitude łączna_liczba_sal populacja gospodarstwa domowe mediana_dochodu mediana_wartości_domu
liczba 17 000,0 17 000,0 17 000,0 17 000,0 17 000,0 17 000,0 17 000,0
średnia -119,6 35,6 2643,7 1429,6 501,2 3,9 207,3
StD 2,0 2.1 2179,9 1147,9 384,5 1.9 116,0
minuta -124,3 32,5 2,0 3,0 1.0 0,5 15,0
25% -121,8 33,9 1462,0 790,0 282,0 2.6 119,4
50% -118,5 34,2 2127,0 1167,0 409,0 3,5 180,4
75% -118,0 37,7 3151,2 1721,0 605,2 4.8 265,0
maks. -114,3 42,0 37937,0 35682,0 6082,0 15,0 500,0

Zamiast tego załóżmy, że 3 funkcje (population, households i median_income) mają tylko liczbę 3000, czyli brakuje 14 000 wartości dla każdej z nich:

longitude latitude łączna_liczba_sal populacja gospodarstwa domowe mediana_dochodu mediana_wartości_domu
liczba 17 000,0 17 000,0 17 000,0 3000,0 3000,0 3000,0 17 000,0
średnia -119,6 35,6 2643,7 1429,6 501,2 3,9 207,3
StD 2,0 2.1 2179,9 1147,9 384,5 1.9 116,0
minuta -124,3 32,5 2,0 3,0 1.0 0,5 15,0
25% -121,8 33,9 1462,0 790,0 282,0 2.6 119,4
50% -118,5 34,2 2127,0 1167,0 409,0 3,5 180,4
75% -118,0 37,7 3151,2 1721,0 605,2 4.8 265,0
maks. -114,3 42,0 37937,0 35682,0 6082,0 15,0 500,0

Te 14 000 brakujących wartości znacznie utrudniłoby precyzyjne korelowanie średnich dochodów gospodarstw domowych z medianami cen domów. Zanim zaczniesz trenować model na podstawie tych danych, spróbuj zbadać ich przyczynę, aby upewnić się, że nie ma ukrytych błędów odpowiedzialnych za brakujące dane o przychodach i populacji.

Nieoczekiwane wartości cech

Podczas badania danych poszukaj też przykładów zawierających wartości cech, które szczególnie się wyróżniają. Te nieoczekiwane wartości cech mogą wskazywać na problemy, które wystąpiły podczas gromadzenia danych lub w wyniku innych niedokładności, które mogą wprowadzać odchylenia.

Przyjrzyjmy się tym przykładom z Kalifornii, w których znajdują się takie dane:

longitude latitude łączna_liczba_sal populacja gospodarstwa domowe mediana_dochodu mediana_wartości_domu
1 -121,7 38,0 7105,0 3523,0 1088,0 5,0 0,2
2 -122,4 37,8 2479,0 1816,0 496,0 3.1 0,3
3 -122,0 37,0 2813,0 1337,0 477,0 3,7 0,3
4 -103,5 43,8 2212,0 803,0 144,0 5.3 0,2
5 -117,1 32,8 2963,0 1162,0 556,0 3.6 0,2
6 -118,0 33,7 3396,0 1542,0 472,0 8.4 0,4

Czy możesz wskazać nieoczekiwane wartości cech?

Zniekształcenie danych

Wszelkie zniekształcenia danych, w przypadku których niektóre grupy lub cechy mogą być niedostatecznie lub reprezentowane w stosunku do ich rzeczywistej pozycji, mogą wprowadzić odchylenia w modelu.

Po ukończeniu ćwiczenia programowania weryfikacji możesz sobie przypomnieć, jak niezaplanowana losowa zbiór danych dotyczących domów w Kalifornii przed jego podzieleniem na zbiory do trenowania i walidacji spowodowała zniekształcone dane. Ilustracja 1 przedstawia podzbiór danych pochodzących z pełnego zbioru danych, który reprezentuje wyłącznie północno-zachodni region regionu Kalifornii.

Mapa stanu Kalifornia nałożona na dane z kalifornijskiego mieszkania.
          Każda kropka reprezentuje blok. W północno-zachodniej Kalifornii są zgrupowane kropki bez kropek w południowej Kalifornii, które ilustrują zniekształcenie geograficzne danych

Rysunek 1. Mapa stanu Kalifornia nałożona na dane z Kalifornii. Każda kropka reprezentuje blok mieszkalny, którego kolory mogą mieć od koloru niebieskiego do czerwonego odpowiednio do mediany ceny domu (od niskich do wysokich).

Gdyby ta niereprezentatywna próbka została użyta do wytrenowania modelu do prognozowania cen nieruchomości w stanie Kalifornia, brak danych dotyczących nieruchomości z południowej części Kalifornii byłby problematyczny. Odchylenie geograficzne zakodowane w modelu może niekorzystnie wpływać na nabywców domów w niereprezentowanych społecznościach.