Klasyfikacja: odchylenie prognozy

Przewidywania regresji logistycznej powinny być bezstronne. Czyli:

"średnia prognoz&&t; ≈ "średnia obserwacji"

Odchylenie prognozy to ilość, która pokazuje, jak daleko od tych dwóch wartości średnich. Czyli:

$$\text{prediction bias} = \text{average of predictions} - \text{average of labels in data set}$$

Znacząca zera wartość odchylenia informuje, że w modelu występuje błąd, ponieważ wskazuje on na to, jak często występują etykiety pozytywne.

Załóżmy na przykład, że wiemy, że średnio 1% e-maili to spam. Jeśli nic nie wiemy na temat danego e-maila, należy przewidzieć, że będzie to 1% spamu. Podobnie dobry model spamu powinien określać, że e-maile są średnio 1% spamem. Inaczej mówiąc, jeśli średnie prawdopodobieństwo, że każdy e-mail jest prognozą, jest średnie, wynik powinien wynosić 1%. W przeciwnym razie średnia prognoza modelu to 20% prawdopodobieństwa spamu, można założyć, że wykazuje odchylenia prognoz.

Możliwe przyczyny błędów odchylenia prognoz:

  • Niekompletny zestaw funkcji
  • Hałas zbioru danych
  • Błąd potoku
  • Próbka odchylenia
  • Zbyt duża regularność

Po nieco skorygowanym odchyleniu prognozy można nieco pokusić się o dodanie informacji o utworzonym modelu, czyli dodanie warstwy kalibracji, która dostosowuje dane wyjściowe modelu w celu ograniczenia odchylenia prognoz. Jeśli na przykład odchylenie modelu wynosi +3%, możesz dodać warstwę kalibracyjną, która obniża średnią prognozę o 3%. Warto jednak dodać warstwę kalibracji, ponieważ:

  • Próbujesz rozwiązać problem, a nie jego przyczynę.
  • Masz bardziej skomplikowany system, który musisz na bieżąco aktualizować.

W miarę możliwości unikaj kalibracji. Projekty, które korzystają z warstw kalibracji, opierają się na nich podczas rozwiązywania problemów z modelami wszystkich warstw. Ostatecznie utrzymanie warstw kalibracyjnych może stać się snem.

Odchylanie i prognozowanie

Regresja logistyczna przewiduje wartość między 0 a 1. Jednak wszystkie przykłady z etykietą to dokładnie 0 (np. "spam") lub dokładnie 1 (co na przykład "spam"). Dlatego też odchylenie prognozy nie jest możliwe w odniesieniu do odchylenia prognoz na podstawie tylko jednego przykładu. Musisz sprawdzić odchylenie prognozy w przykładach w zasobniku. Oznacza to, że odchylenie prognozy w przypadku regresji logistycznej przynosi sens tylko przy grupowaniu wystarczającej liczby przykładów, aby móc porównać przewidywaną wartość (np.0,392) z zaobserwowanymi wartościami (np.0,394).

Zasobniki możesz tworzyć w taki sposób:

  • Linearny podział prognoz.
  • Tworzenie kwantylów.

Weź pod uwagę poniższy kalibrację konkretnego modelu. Każda kropka reprezentuje zasobnik zawierający 1000 wartości. Siekiery mają następujące znaczenie:

  • Oś X przedstawia średnią wartość, którą model przewiduje dla danego zasobnika.
  • Oś Y przedstawia rzeczywistą średnią wartości ze zbioru danych dla tego zasobnika.

Obie osie to wagi logarytmiczne.

Oś Y to prognoza, a oś Y – etykieta. W przypadku średniej i wysokiej wartości odchylenia prognozy jest nieistotna. W przypadku niskich wartości prognozowania odchylenia prognozy są względnie wysokie.

Rysunek 8. Krzywa odchylenia prognozy (skale logarytmiczne)

Dlaczego prognozy są tak niskie tylko w części modelu? Oto kilka możliwości:

  • Zbiór treningowy w sposób adekwatnie reprezentuje niektóre podzbiory przestrzeni danych.
  • Niektóre podzbiory danych są cichsze niż inne.
  • Model jest zbyt normalny. Rozważ zmniejszenie wartości lambda.