Sprawiedliwość: ocena stronniczości

Oceniając model, dane obliczone na podstawie całego zbioru testowego lub testowego walidacji nie zawsze są dokładne.

Rozważ opracowanie nowego modelu pozwalającego przewidzieć obecność guzów w ramach weryfikacji obejmującej 1000 pacjentów. 500 rejestrów pochodzi od pacjentów płci żeńskiej, a 500 od pacjentów. Ta tabela pomyłek podsumowuje wyniki dla wszystkich 1000 przykładów:

Rzeczywiste korzyści (TP): 16 Fałszywy wynik (FP): 4
Fałszywe wyniki negatywne: 6 Prawda i fałsz: 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

Wyniki są obiecujące: precyzja wynosząca 80%, czułość na 72,7%. Ale co się stanie, jeśli wyniki obliczamy osobno dla każdej grupy pacjentów? Rozbij wyniki na 2 oddzielne tablice: jedną dla kobiet i jedną dla mężczyzn.

Wyniki pacjentki

Rzeczywiste korzyści (TP): 10 Fałszywy wynik (FP): 1
Fałszywe wyniki negatywne: 1 Prawda i fałsz: 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

Wyniki pacjenta

Rzeczywiste korzyści (TP): Fałszywy wynik (FP): 3
Fałszywe wyniki negatywne: 5 Prawda i fałsz: 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

Gdy obliczamy dane osobno dla kobiet i mężczyzn, obserwujemy wyraźne różnice w skuteczności poszczególnych grup.

Pacjentki:

  • Model wśród 11 pacjentów, u których występuje rak Krótko mówiąc, model nie rozpoznał nowotworu w 9,1% przypadków kobiecych.

  • Podobnie, gdy model wskazuje na guz u pacjentów, jest poprawny w 10 na 11 przypadkach (współczynnik precyzji: 90,9%). Inaczej mówiąc, model nieprawidłowo prognozuje guz w 9,1% przypadków kobiecych.

Pacjenci mężczyzn:

  • Jednak z 11 płci męskich, u których występują guzy, model poprawnie przewiduje pozytywny wynik tylko 6 pacjentów (współczynnik czułości: 54,5%). Oznacza to, że model nie uwzględnia diagnostyki nowotworów w 45,5% przypadków mężczyzn.

  • Model z dodatnim wynikiem nowotworu u mężczyzn jest prawidłowy w 6 na 9 przypadków (dokładność: 66,7%). Inaczej mówiąc, model nieprawidłowo przewiduje guz w 33,3% przypadków mężczyzn.

Wiemy teraz znacznie więcej o odchyleniach wynikających z przewidywań modelu, a także o zagrożeniach, z jakimi wiąże się każda grupa podrzędna w przypadku opublikowania modelu do użytku medycznego w ogólnej populacji.

Dodatkowe materiały na temat uczciwości

Sprawiedliwość to stosunkowo nowa kategoria w dziedzinie systemów uczących się. Więcej informacji o badaniach i inicjatywach poświęconych opracowywaniu nowych narzędzi i metod dotyczących identyfikowania i ograniczania odchyleń w modelach systemów uczących się znajdziesz na stronieStrona zasobów Google dotyczących uczciwości systemów uczących się