공정성: 이해한 내용 확인하기

편향 유형

아래 옵션을 살펴보세요.

다음 모델 예측 중 선택 편향의 영향을 받은 것은 무엇인가요?
독일어 필기 인식 스마트폰 앱이 사용하는 모델은 자주 ß(Eszett) 철자를 B로 잘못 인식하는데, 이는 주로 영어로 쓰이는 미국 필기 샘플의 말뭉치로 훈련했기 때문입니다.
이 모델은 선택 편향 중 노출 편향의 영향을 받았습니다. 학습 데이터(미국 영어 필기)가 모델의 타겟층(독일어 필기)이 제공하는 데이터 유형을 대표하지 않았던 것입니다.
엔지니어들은 매일 섭취하는 음식에 따라 당뇨병을 앓을 가능성을 예측할 수 있는 모델을 만들었습니다. 이 모델은 전 세계에서 임의로 선정된 다양한 연령대, 인종 배경, 성별을 대표하는 그룹으로부터 수집한 10,000개의 '식단 일지'를 바탕으로 학습되었습니다. 하지만 실제로 모델을 사용했더니 정확도가 매우 낮았습니다. 나중에서야 엔지니어들은 식단 일지 참여자들이 건강에 좋지 않은 음식의 실제 섭취량을 밝히는 걸 꺼려한다는 것을 발견했습니다. 건강에 좋지 않은 간식보다 영양가 있는 음식에 대한 기록이 더 많았을 겁니다.
이 모델에 선택 편향은 없습니다. 학습 데이터를 제공한 참여자들은 사용자의 대표 샘플이었고 임의로 선정되었습니다. 그러나 이 모델은 보고 편향의 영향을 받았습니다. 건강에 좋지 않은 음식을 섭취한 빈도는 실제보다 훨씬 낮게 보고되었습니다.
한 회사의 엔지니어들이 전 직원 대상 설문조사 데이터를 토대로 직원 퇴사율(매년 직장을 그만두는 직원들의 비율)을 예측하는 모델을 개발했습니다. 수년간 사용 후 엔지니어들은 이 모델이 퇴사율을 20% 이상 낮게 예측한다고 평가했습니다. 퇴사하는 직원과의 퇴사 면담에서 직장에 만족하지 못한 사람 중 80% 이상이 설문조사를 마치지 않은 것으로 드러났습니다. 회사 전체의 설문 조사 미응답 비율은 15%에 불과했습니다.
이 모델은 선택 편향 중 무응답 편향의 영향을 받았습니다. 직장에 만족하지 못한 사람들은 다른 직원들보다 회사 전체에 시행된 설문조사에 응하지 않는 비율이 높았기 때문에 학습 데이터세트에서 그 비율이 제대로 드러나지 않은 것입니다.
영화 추천 시스템을 개발하는 엔지니어들이 공포 영화를 좋아하는 사람은 공상 과학 영화도 좋아한다는 가설을 세웠습니다. 하지만 50,000명 사용자의 시청 목록으로 모델을 훈련해보니 실제로 공포 영화와 공상 과학 영화의 상관관계를 찾을 수 없었고, 대신 공포 영화와 다큐멘터리의 강한 상관관계가 드러났습니다. 이 점을 이상하게 여긴 엔지니어들은 다른 초매개변수를 사용하여 모델을 5회 이상 다시 훈련시켰습니다. 훈련을 마친 최종 모델은 공포 영화와 공상 과학 영화 선호에 있어 70%의 상관관계를 보여주었고 엔지니어들은 자신 있게 모델을 제품으로 출시했습니다.
여기서 선택 편향의 증거는 찾을 수 없지만 엔지니어들이 기존의 가설을 확인할 때까지 모델을 반복했으므로 대신 실험자 편향의 영향을 받았을 수도 있습니다.

편향 평가하기

비꼼 감지 모델은 성인(만 18세 이상)이 전송한 40,000건과 미성년자(만 18세 미만)가 전송한 40,000건을 합쳐 총 80,000건의 SMS를 사용하여 훈련되었습니다. 이후 메시지 20,000건(성인 10,000건, 미성년자 10,000건)의 테스트 세트로 모델을 평가했습니다. 다음 혼동행렬은 각 그룹의 결과를 보여줍니다(양성 예측은 '비꼼'으로 분류된 것, 음성 예측은 '비꼼이 아님'으로 분류된 것을 의미).

성인

참양성(TP): 512 거짓양성(FP): 51
거짓음성(FN): 36 참음성(TN): 9401
$$\text{정밀도} = \frac{TP}{TP+FP} = 0.909$$
$$\text{재현율} = \frac{TP}{TP+FN} = 0.934$$

미성년자

참양성(TP): 2147 거짓양성(FP): 96
거짓음성(FN): 2177 참음성(TN): 5580
$$\text{정밀도} = \frac{TP}{TP+FP} = 0.957$$
$$\text{재현율} = \frac{TP}{TP+FN} = 0.497$$

아래 옵션을 살펴보세요.

다음 중 모델의 테스트 세트 성과에 관해 옳은 설명은 무엇인가요?
전반적으로 미성년자 사례보다 성인 사례에서 모델 성과가 좋았습니다.

이 모델은 성인의 SMS에서 비꼼을 감지할 때 정밀도와 재현율이 모두 90% 이상이었습니다.

모델 정밀도가 성인보다 미성년자에서 약간 더 높았지만 재현율이 미성년자에서 현저하게 낮았기 때문에 미성년자 그룹에 대한 예측 신뢰도가 떨어졌습니다.

이 모델은 비꼬는 메시지의 약 50%를 비꼼'으로 분류하지 못했습니다.
미성년자에 대한 재현율이 0.497인 것은 모델이 미성년자의 비꼬는 문자 메시지 중 약 50%를 '비꼼이 아님'으로 예측했다는 의미입니다.
미성년자가 보낸 메시지의 약 50%가 '비꼼'으로 잘못 분류되었습니다.
정밀도가 0.957인 것은 '비꼼'으로 분류된 미성년자 메시지의 95% 이상이 실제로 비꼬는 메시지였음을 의미합니다.
성인이 보낸 10,000건의 메시지는 클래스 불균형 데이터세트입니다.
성인이 보낸 메시지 중 실제로 비꼬는 내용인 메시지의 수(TP+FN = 548)를 비꼬는 내용이 아닌 메시지의 수(TN + FP = 9452)와 비교하면 '비꼼이 아닌' 라벨이 약 17:1의 비율로 '비꼼' 라벨의 수보다 많습니다.
미성년자가 보낸 10,000건의 메시지는 클래스 불균형 데이터세트입니다.
미성년자가 보낸 메시지 중 실제로 비꼬는 내용인 메시지의 수(TP+FN = 4324)를 비꼬는 내용이 아닌 메시지의 수(TN + FP = 5676)와 비교하면 '비꼼이 아닌' 라벨과 '비꼼' 라벨 사이에서 1.3:1 비율을 확인할 수 있습니다. 두 클래스 사이의 라벨 분포가 50/50에 가까운 것을 보면 클래스 불균형 데이터세트라고 할 수 없습니다.

아래 옵션을 살펴보세요.

엔지니어들은 이 모델을 다시 훈련시켜 전체 연령대에서 비꼼 감지 정확성을 높이려고 하지만 이미 모델은 제품으로 출시된 상태입니다. 다음 중 모델의 예측 오류를 완화할 수 있는 임시 전략은 무엇인가요?
성인이 보내는 SMS에만 모델을 사용합니다.

성인의 SMS에서는 모델 성과가 뛰어난 만큼(정밀도와 재현율 모두 90% 이상) 성인 그룹으로 사용을 제한하면 미성년자의 SMS 분류에서 발생한 시스템 오류를 피할 수 있습니다.

모델이 미성년자가 보낸 SMS를 '비꼼이 아님'으로 예측할 경우 출력을 조정하여 반환 값이 '확실하지 않음'이 되도록 합니다.

미성년자가 보낸 SMS의 정밀도가 높으므로 모델이 이 그룹에서 '비꼼'을 거의 항상 정확하게 예측한다는 것을 의미합니다.

문제는 미성년자 그룹의 재현율이 매우 낮다는 것입니다. 이 모델은 사례의 약 50%에서 비꼬기를 분별해내지 못했습니다. 미성년자에 관한 모델의 음성 예측이 임의의 예측과 다르지 않다는 점에서 이 사례에 예측을 아예 제공하지 않음으로써 오류를 피할 수 있습니다.

미성년자가 보내는 SMS에만 모델을 사용합니다.

이 모델의 시스템 오류는 미성년자가 보내는 SMS에 국한됩니다. 오류가 발생하기 더 쉬운 그룹에 모델 사용을 제한하는 것은 도움이 되지 않습니다.

모델 출력을 조정하여 원래 모델의 예측과 무관하게 미성년자가 보내는 SMS에서 모두 '비꼼'을 반환하게 합니다.

미성년자 SMS를 항상 '비꼼'으로 예측하면 모델이 더이상 메시지를 비꼼으로 분류하지 못 하는 일이 없어지므로 재현율이 0.497에서 1.0으로 증가하게 됩니다. 하지만 이렇게 재현율을 높이면 정밀도가 떨어집니다. 모든 참음성이 거짓양성으로 바뀌게 됩니다.

참양성(TP): 4324 거짓양성(FP): 5676
거짓음성(FN): 0 참음성(TN): 0

이로 인해 정밀도가 0.957에서 0.432로 떨어집니다. 이렇게 보정을 추가하면 오류의 유형이 달라질 뿐 오류의 정도는 완화되지 않습니다.