편향 정확히 파악하기

Jigsaw팀은 Perspective API 악성 모델을 처음 평가했을 때 테스트 데이터 세트에서 잘 작동하는 것을 확인했습니다. 하지만 학습 데이터에 구조적 오류가 있으면 모델의 예측에 편향이 나타날 가능성이 있다는 우려가 있었습니다. 그들은 학습 데이터 품질을 보장하기 위해 평가자가 제공한 라벨을 감사하는 추가 단계를 수행했습니다.

하지만 모델의 학습 데이터에 대한 편향을 제거하기 위해 선제적인 조치를 취했지만, 사용자는 여전히 ID 용어가 포함된 댓글에 대해 거짓양성 문제를 발견했습니다. 왜 그런 것일까요?

교육 세트에 대한 두 번째 감사를 통해 인종, 종교, 성별과 관련된 ID 용어가 포함된 댓글 대부분에 유해 라벨이 지정되었습니다. 이러한 라벨은 정확했습니다. 이러한 ID 용어가 포함된 대부분의 온라인 댓글은 정말 유해합니다. 하지만 이러한 왜곡의 결과로 모델은 이러한 ID 용어의 존재와 유해성 간에 상관관계가 있음을 알게 되었고 이는 용어 자체의 중립적인 동의어를 정확히 반영하지 못했습니다.

팀은 모델의 학습 데이터에서 중대한 격차를 발견했습니다. 실제로 중요한 부분을 표현할 수 있는 학습 데이터가 충분하지 않은 영역이었습니다. 학습 세트에는 용어 자체가 중립적이며 학습에 사용된 컨텍스트가 중요한 요소라는 것을 학습할 수 있는 독성이 없는 ID 댓글의 충분한 예시가 포함되어 있지 않았습니다.