Uczciwość: sprawdź swoją wiedzę

Typy odchyleń

Dostępne opcje są opisane poniżej.

Na które z poniższych modeli wpływają odchylenia wyboru?
Aplikacja do rozpoznawania pisma odręcznego w języku niemieckim używa modelu, który często nieprawidłowo klasyfikuje znaki ß (Eszett) jako znaki B, ponieważ został wytrenowany na korpusie próbek pisma odręcznego w Stanach Zjednoczonych, głównie w języku angielskim.
Wprowadzono w tym modelu tendencję do wyboru w postaci odchylenia na podstawie zasięgu: dane treningowe (odręczna pismo odręczne w języku angielskim) nie były reprezentatywne dla typu danych przekazywanych przez docelowych odbiorców (niemiecki pismo odręczne).
Inżynierowie opracowali model przewidujący prawdopodobieństwo wystąpienia cukrzycy na podstawie dziennego spożycia pokarmu. Model został przeszkolony z udziałem 10 000 &dzienników jedzenia i pobranych od losowo wybranych grup ludzi z różnych grup wiekowych, etnicznych i płci. Jednak po wdrożeniu modelu jego dokładność była bardzo niska. Inżynierowie odkryli też, że uczestnicy pamiętnika nie byli otwarci na przyjmowanie prawdziwej ilości niezdrowej żywności, a to z większym prawdopodobieństwem dokumentowali spożycie odżywczej żywności niż mniej zdrowych przekąsek.
W tym modelu nie ma odchylenia wyboru. Uczestnicy, którzy podali dane treningowe, byli reprezentatywną próbką użytkowników i zostali wybrani losowo. Wpłynęło to na ten model przez odchylenie raportowania. Jedzenie niezdrowej żywności było zgłaszane znacznie rzadziej niż prawdziwe.
Engineerzy w firmie opracowali model pozwalający przewidzieć współczynnik rotacji pracowników (odsetek pracowników, którzy zrezygnowali z pracy co roku) na podstawie danych zebranych z wszystkich ankiet. Po kilku latach użytkowania inżynierowie ustalili, że model oszacowuje obrót o ponad 20%. Podczas rozmów kwalifikacyjnych z osobami opuszczającymi firmę okazało się, że ponad 80% osób niezadowolonych z pracy zdecydowało się nie wypełniać ankiety, co daje 15-procentowy odsetek rezygnacji z usług.
Na ten model miał wpływ rodzaj odchylenia wyboru nazywany odchyleniem odpowiedzi. W zbiorach treningowych osoby, które nie były niezadowolonye z pracy, były niedostatecznie reprezentowane, ponieważ zrezygnowały z ankiety obejmującej całą firmę znacznie częściej niż cała populacja pracowników.
Inżynierowie opracowujący system rekomendacji filmów hipotezujący, że osoby, które lubią oglądać horrory, będą lubili filmy science fiction. Wytrenowano model na 50 000 użytkowników z list Do obejrzenia, ale nie pokazuje to korelacji między horrorami a sci-fi. Zamiast tego pokazuje on silną korelację między horrorami a dokumentami. Wydawało się to dziwne, dlatego model wytrenował 5 razy jeszcze raz, korzystając z różnych hiperparametrów. Ostatni wytrenowany model wykazał 70% korelację między preferencjemi dotyczącymi horroru i sci-fi, dlatego twórca pewnie opublikował go w środowisku produkcyjnym.
Nie ma dowodów na stronniczość wyboru, ale zamiast tego na ten model mógł wpływać odchylenie eksperymentu, ponieważ inżynierowie powtarzali go, dopóki nie potwierdził on swojej hipotezy.

Ocena pod kątem stronniczości

Model wykrywania sarcamu został wytrenowany na 80 000 SMS-ów: 40 000 wiadomości wysłanych przez osoby dorosłe (w wieku co najmniej 18 lat) i 40 tysięcy wiadomości wysłanych przez osoby nieletnie (poniżej 18 roku życia). Następnie oceniano model, który obejmował 20 000 wiadomości od dorosłych i 10 tysięcy osób nieletnich. Poniższe tablice pomyłek pokazują wyniki dla każdej grupy (dodatnia prognoza wskazuje klasyfikację &sposób &skryptu; negatywna prognoza oznacza klasyfikację &sposób sarkastyczny):

Dorośli

Rzeczywiste pozytywne (TP): 512 Fałszywy wynik (FP): 51
Fałszywe wyniki negatywne: 36 Prawda i fałsz: 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

Nieletni

Rzeczywiste pozytywne (TP): 2147 Fałszywy wynik (FP): 96
Fałszywe wyniki ujemne (FNS): 2177 Prawda i fałsz: 5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

Dostępne opcje są opisane poniżej.

Które z tych stwierdzeń na temat modelu jest prawidłowe?
Model lepiej sprawdza się w przypadku przykładów od osób dorosłych niż w przypadku osób nieletnich.

Model wykrywa zarówno precyzję, jak i czułość, wykrywając sarkazm w SMS-ach osób dorosłych.

Choć model osiąga nieco wyższy współczynnik dokładności w przypadku osób nieletnich niż dorosłych, współczynnik czułości jest znacznie niższy w przypadku osób nieletnich, co skutkuje mniej wiarygodnymi prognozami dla tej grupy.

Model nie klasyfikuje około 50% nieletnich i sarkastycznych wiadomości jako &sarkaztycznych."
Współczynnik czułości 0,497 w przypadku nieletnich wskazuje, że model przewiduje, że nie będzie sarkastyczny – ok.50% treści nieletnich.
Około 50% wiadomości wysyłanych przez osoby nieletnie jest nieprawidłowo klasyfikowanych jako „sarkastyczne”.
Dokładność na poziomie 0,957 oznacza, że ponad 95% osób niepełnoletnich; wiadomości sklasyfikowane jako &&squot&sarticic" w rzeczywistości są sarkastyczne.
10 000 wiadomości wysłanych przez osoby dorosłe to zbiór danych nierównoważony.
Jeśli porównamy liczbę wiadomości od dorosłych, które faktycznie są sarkastyczne (TP+FN = 548), z wiadomościami, które tak naprawdę nie są sarkastyczne (TN + FP = 9452), oznacza to, że &&tt;not scastcast" etykiety przewyższają liczbę "sarcastic".
10 000 wiadomości wysłanych przez osoby nieletnie jest zbiorem niezrównoważonych klas.
Jeśli porównamy liczbę wiadomości od nieletnich, które faktycznie są sarkastyczne (TP+FN = 4324), z wiadomościami, które nie są sarkastyczne (TN + FP = 5676), widzimy współczynnik 1,3:1 etykiet &" " etykiety. Biorąc pod uwagę rozkład etykiet między obiema klasami około 50/50, nie jest to zbiór danych niezrównoważony.

Dostępne opcje są opisane poniżej.

Inżynierowie pracują nad ponownym nauczeniem tego modelu w celu usunięcia niespójności w zakresie dokładności wykrywania sarkazmu w przypadku różnych grup wiekowych, ale został on już opublikowany. Która z tych strategii ograniczających liczbę błędów pomaga ograniczyć błędy w prognozach modelu?
Ogranicz wykorzystanie modelu do SMS-ów wysyłanych przez osoby dorosłe.

Model dobrze sprawdza się w przypadku SMS-ów prowadzonych przez dorosłych (z dokładnością na poziomie ponad 90%), dlatego ograniczenie do nich dostępu spowoduje, że systematyczne błędy klasyfikowają osoby nieletnie w ramach klasyfikowania SMS-ów.

Gdy model przewiduje,

Dokładność SMS-ów wysyłanych przez osoby nieletnie jest wysoka, co oznacza, że gdy model prognozuje „sarkastyczny” dla tej grupy, jest on niemal zawsze prawidłowy.

Problem polega na tym, że osoby nieletnie bardzo często się czują. W około 50% przykładów model nie rozpoznaje sarkazmu. Biorąc pod uwagę fakt, że prognozy modelu dla nieletnich są lepsze niż losowe przypuszczenia, możemy uniknąć tych błędów przez nieprzekazywanie w takich przypadkach prognoz.

Ograniczyć wykorzystanie modelu do SMS-ów wysyłanych przez osoby nieletnie.

Błędy systemowe w tym modelu dotyczą SMS-ów wysyłanych przez osoby nieletnie. Ograniczenie użycia modelu do grupy bardziej narażonej na błędy nie pomoże.

Dostosuj dane wyjściowe modelu tak, aby zwracały „&sarcastic&quot” w przypadku wszystkich SMS-ów wysyłanych przez osoby nieletnie, niezależnie od przewidywanego modelu.

Zawsze przewidują &są sarkastyczne, w przypadku nieletnich Taki wzrost rozpoznawalności może jednak kosztować precyzję. Wszystkie wyniki prawdziwie negatywne zostaną zamienione na fałszywie pozytywne:

Rzeczywiste wartości pozytywne: 4324 Fałszywy wynik (FP): 5676
Fałszywe wyniki negatywne Rzeczywiste wykluczenia (TN): 0

co zmniejszy współczynnik precyzji z 0,957 do 0,432. Dodanie tej kalibracji spowoduje zmianę typu błędu, ale nie zmniejszy jego wagi.