Obliczanie odchylenia prognozy to szybkie sprawdzenie, które może wcześnie wykryć problemy z modelem lub danymi treningowymi.
Uprzedzenie prognozy to różnica między średnią prognoz modelu a średnią etykiet danych podstawowych w danych. Model wytrenowany na zbiorze danych, w którym 5% e-maili to spam, powinien średnio przewidywać, że 5% e-maili, które klasyfikuje, to spam. Innymi słowy, średnia etykiet w zbiorze danych podstawowych wynosi 0,05, a średnia prognoz modelu powinna również wynosić 0,05. W takim przypadku model ma zerowe odchylenie prognozy. Oczywiście model może nadal mieć inne problemy.
Jeśli model przewiduje, że e-mail jest spamem w 50% przypadków, oznacza to, że coś jest nie tak ze zbiorem danych treningowych, nowym zbiorem danych, do którego model jest stosowany, lub z samym modelem. Wszelkie znaczące różnice między tymi dwiema średnimi sugerują, że model ma pewne odchylenie prognozy.
Uprzedzenia w prognozach mogą być spowodowane:
- uprzedzenia lub szum w danych, w tym tendencyjne próbkowanie w przypadku zbioru treningowego;
- Zbyt silna regularyzacja, co oznacza, że model został nadmiernie uproszczony i utracił niezbędną złożoność.
- Błędy w potoku trenowania modelu
- zestaw funkcji udostępnionych modelowi jest niewystarczający do wykonania zadania;