공정성: 이해한 내용 확인하기

편향 유형

아래 옵션을 살펴보세요.

다음 중 예측 편향의 영향을 받는 모델 예측은 무엇인가요?
독일어 필기 인식 스마트폰 앱이 사용하는 모델은 주로 β (Eszett) 문자를 B 문자로 잘못 분류합니다. 이 모델은 주로 영어로 작성된 미국 필기 샘플의 코퍼스에 관해 학습되었기 때문입니다.
이 모델은 선택 편향 중 노출 편향의 영향을 받았습니다. 학습 데이터 (미국 영어 필기 입력)가 모델의 타겟층 (독일어 필기)이 제공하는 데이터 유형을 대표하지 않았기 때문입니다.
엔지니어들은 일일 음식 섭취를 기준으로 당뇨병이 발생할 가능성을 예측하는 모델을 빌드했습니다. 이 모델은 전 세계의 무작위 집단에서 다양한 연령대,민족 배경, 성별을 대표하는 집단 10, 000명에 대해 학습되었습니다. 그러나 모델을 배포할 때는 정확성이 매우 떨어졌습니다. 이후 엔지니어들은 식단 일기 참여자들이 건강에 해로운 식품의 실제 양을 인정하는 것을 주저하고 건강에 좋지 않은 간식보다 영양가 있는 음식의 섭취를 기록할 가능성이 높다는 사실을 발견했습니다.
이 모델에는 선택 편향이 없습니다. 학습 데이터를 제공한 참여자는 사용자의 대표 샘플이며 무작위로 선택되었습니다. 이 모델은 보고 편향의 영향을 받았습니다. 건강에 좋지 않은 식품의 섭취가 실제 상황보다 훨씬 낮은 빈도로 보고되었습니다.
한 회사의 엔지니어들이 모든 직원에게 전송된 설문조사에서 수집된 데이터를 기반으로 직원 이직률(매년 직장을 그만두는 직원의 비율)을 예측하는 모델을 개발했습니다. 몇 년간의 사용 후 엔지니어들은 모델이 이직률을 20% 넘게 과소평가한다는 사실을 확인했습니다. 퇴사하는 직원과 인터뷰를 진행한 결과, 업무에 불만족한 사용자의 80% 이상이 설문조사에 참여하지 않는 것으로 나타났습니다(전사적 거부율은 15%).
이 모델은 무응답 편향이라고 하는 선택 편향의 유형에 영향을 받았습니다. 직무에 불만족한 사람들은 전체 직원 인구보다 훨씬 높은 비율로 전사적 설문조사 참여를 거부했기 때문에 학습 데이터 세트에서 과소평가되었습니다.
영화 추천 시스템을 개발하는 엔지니어들이 공포 영화를 좋아하는 사람도 SF 영화를 좋아할 것이라는 가설을 세웠습니다. 그러나 50,000명의 사용자 목록을 바탕으로 모델을 학습시켰을 때 공포와 공상에 대한 선호도 간에는 상관관계가 없었습니다. 이상하게 보였으므로 다른 초매개변수를 사용하여 모델을 5번 더 재학습시켰습니다. 최종 학습된 모델은 공포 영화와 공상 과학 영화에 대한 선호도 간에 70% 의 상관관계를 보여주었으므로 이를 자신있게 프로덕션에 출시했습니다.
선택 편향의 증거는 없지만 엔지니어들이 기존 가설을 확인할 때까지 모델이 계속 반복하므로 이 모델은 실험자 편향의 영향을 받았을 수 있습니다.

편향 평가

비꼼 감지 모델은 80,000개의 문자 메시지(성인(18세 이상)의 메시지 40,000개, 미성년자(18세 미만)의 메시지 40,000개))를 학습시켰습니다. 그런 다음 메시지 20,000개(성인 10,000명, 미성년자 10,000명)의 테스트 세트로 평가했습니다. 다음 혼동 행렬은 각 그룹의 결과를 보여줍니다. 양성 예측은 '비꼼' 분류를 나타내고, 음의 예측은 '비꼼이 아님'의 분류를 나타냅니다.

성인

참양성 (TP): 512 거짓양성 (FP): 51
거짓음성 (FN): 36 참음성 (TN): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

미성년자

참양성 (TP): 2147 거짓양성 (FP): 96
거짓음성 (FN): 2177 참음성 (TN): 5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

아래 옵션을 살펴보세요.

모델의 테스트 세트 성능에 대한 다음 설명 중 참인 것은 무엇인가요?
전반적으로 이 모델은 미성년자의 예시보다 성인의 예시에서 더 잘 작동합니다.

이 모델은 성인이 보낸 문자 메시지에서 비꼬기를 감지할 때 90% 가 넘는 정밀도와 재현율을 달성합니다.

모델은 성인보다 미성년자에 대한 정밀도 수준이 약간 더 높지만, 미성년자에 대한 재현율은 상당히 더 낮기 때문에 이 그룹의 예측 신뢰도가 떨어집니다.

모델이 미성년자의 약 50% 를 비방하는 메시지를 '비꼼'으로 분류하지 못합니다.
미성년자의 재현율이 0.497인 경우 모델이 미성년자의 약 50% 를 비꼬는 텍스트로 예측했다는 의미입니다.
미성년자가 보낸 메시지의 약 50% 가 '비꼼'으로 잘못 분류되었습니다.
정밀도가 0.957이면 미성년자의 95% 이상의 메시지가 실제로 비꼬는 것임을 나타냅니다.
성인이 보낸 10,000개의 메시지는 클래스 불균형 데이터 세트입니다.
실제로 비꼬는 성인의 메시지 수 (TP+FN = 548)와 실제로 비현실적인 메시지 수 (TN + FP = 9452)를 비교하면 '비꼼이 아님' 라벨이 라벨 수에 비해 대략 1 비례하여
미성년자가 보낸 10,000개의 메시지는 클래스 불균형 데이터 세트입니다.
미성년자가 보낸 메시지 중 실제로 비꼬는 내용 (TP+FN = 4324)의 메시지 수와 실제로 비꼬는 내용이 아닌 메시지 수 (TN + FP = 5676)를 비교하면 라벨 중 '비꼼' 라벨이 1.3:1인 것을 알 수 있습니다. 두 클래스 간의 라벨 분포가 50/50에 가깝기 때문에 클래스 불균형 데이터 세트가 아닙니다.

아래 옵션을 살펴보세요.

엔지니어들은 이 모델을 다시 학습시켜 전체 인구통계에서 비꼼 감지 정확성의 불일치를 해결하기 위해 노력하고 있지만, 모델은 이미 프로덕션 버전으로 출시되었습니다. 다음 중 모델의 예측 오류를 완화하는 데 도움이 되는 멈춤 전략은 무엇인가요?
성인이 보내는 문자 메시지로만 모델을 사용합니다.

이 모델은 성인이 보낸 문자 메시지(정밀도와 재현율 모두 90% 초과)에서 잘 작동하므로 이 그룹으로 사용을 제한하면 미성년자 문자 메시지를 분류하는 과정에서 체계적인 오류가 발생합니다.

모델이 미성년자가 보낸 SMS에 대해 '비꼼이 아님'이라고 예측하면 대신 모델이 '확실하지 않음' 값을 반환하도록 출력을 조정합니다.

미성년자가 보낸 문자 메시지의 정밀도는 높으므로 모델이 이 집단에 대해 '비꼼'을 예측하는 경우는 거의 항상 정확합니다.

문제는 미성년자의 회상도가 매우 낮다는 것입니다. 모델이 약 50% 의 예에서 비꼬기를 식별하지 못했습니다. 미성년자에 대한 모델의 부정적인 예측이 임의의 추측보다 낫지 않기 때문에 이러한 경우 예측을 제공하지 않으면 이러한 오류를 방지할 수 있습니다.

미성년자가 보내는 문자 메시지로 모델의 사용을 제한합니다.

이 모델의 시스템 오류는 미성년자가 보낸 SMS와 관련이 있습니다. 오류가 발생하기 쉬운 그룹으로 사용을 제한하는 것은 도움이 되지 않습니다.

모델이 처음 예측한 내용과 관계없이 미성년자가 보낸 모든 문자 메시지에 '비꼼'이 반환되도록 모델 출력을 조정합니다.

미성년자에게 문자 메시지나 '비꼼'이라고 예측하면 항상 재현율이 0.497에서 1.0으로 증가합니다. 모델이 더 이상 비꼬는 메시지를 식별하지 못하기 때문입니다. 그러나 이렇게 재현율이 높아지면 정밀도가 저하됩니다. 모든 참음성은 거짓양성으로 변경됩니다.

참양성 (TP): 4324 거짓양성 (FP): 5676
거짓음성 (FN): 0 참음성 (TN): 0

정밀도가 0.957에서 0.432로 떨어집니다. 따라서 이 보정을 추가하면 오류 유형이 변경되지만 오류의 정도는 완화되지 않습니다.