Promowanie stronniczości

Zespół Jigsaw wstępnie oceniał model toksyczności interfejsu Perspective API i okazał się skuteczny w testowym zbiorze danych. Mimo to obawiały się, że w modelu mogą występować odchylenia w przypadku błędów systemowych w danych treningowych. Aby zapewnić wysoką jakość danych treningowych, przeprowadzili dodatkowy krok polegający na sprawdzeniu etykiet przekazanych przez weryfikatorów.

Mimo tych działań podjętych w celu wyeliminowania uprzedzeń w modelu treningowym użytkownicy nadal wykrywali fałszywie pozytywny charakter komentarzy zawierających hasła związane z tożsamością. Jak to się stało?

Drugi audyt zestawu szkoleń wykazał, że większość komentarzy zawierających hasła związane z rasą, religią i płcią jest toksyczna. Te etykiety były prawidłowe. Większość komentarzy online zawierających te hasła było rzeczywiście toksyczne. Okazało się jednak, że związek między tymi hasłami a toksycznością nie odzwierciedlał bezpośrednio neutralnych sprzeczności tych haseł.

Zespół odkrył krytyczną lukę w danych treningowych modelu – obszar, w którym nie było wystarczająco dużo danych treningowych, aby odzwierciedlić kluczowy aspekt rzeczywistości. Zbiór szkoleniowy nie zawierał wystarczającej liczby nietoksycznych komentarzy dotyczących tożsamości modelu, aby ustalić, że same warunki były neutralne oraz że kontekst, w którym zostały użyte, był istotny.