ML 실습: Perspective API의 공정성

이해도 확인: 편향 식별 및 해결

편향 식별하기

연습 #1: 모델 탐색에서는 모델이 정체성 관련 용어가 있는 댓글을 악의적인 것으로 불균형하게 분류하고 있음을 확인했습니다. 이 편향의 원인을 설명하는 데 도움이 되는 측정항목은 무엇인가요? 아래 옵션을 살펴보세요.
정확성

정확성은 총 예측 중 정확한 비율, 즉 참양성 또는 참음성의 비율을 측정합니다. 서로 다른 하위 그룹 (예: 다양한 성별 인구통계)의 정확성을 비교하면 각 그룹에 대한 모델의 상대적 성능을 평가하고 모델에 대한 편향의 영향을 나타내는 지표로 사용할 수 있습니다.

그러나 정확성은 정답과 오답을 종합적으로 고려하여 예측을 두 가지 유형의 올바른 예측과 두 가지 유형의 잘못된 예측을 구분하지 않습니다. 정확성만 봤을 때는 편향의 원인을 자세히 파악할 수 있는 참양성, 참음성, 거짓양성, 거짓음성의 근본적인 분류를 파악할 수 없습니다.

거짓양성률

거짓양성률 (FPR)은 실제 음성 예시 (악의적이지 않은 댓글) 중 양성 (악의적인 댓글)으로 잘못 분류된 비율입니다. FPR은 모델에 대한 편향의 효과를 나타내는 지표입니다. 서로 다른 하위 그룹 (예: 다양한 성별 인구통계)의 FPR을 비교할 때, 성별과 관련된 정체성 용어가 포함된 텍스트 댓글이 이러한 용어를 포함하지 않는 댓글보다 악의적인 (거짓양성)으로 잘못 분류될 가능성이 높다는 것을 알게 됩니다.

하지만 저희는 편향의 효과를 측정하는 것이 아니라 그 원인을 찾으려고 합니다. 그러려면 FPR 공식에 입력하는 내용을 자세히 살펴봐야 합니다.

실제 음성 및 실제 양성
이 모델의 학습 및 테스트 데이터 세트에서 실제 양성은 모두 악의적인 댓글의 예시이고, 실제 음성은 모두 악의적인 댓글의 예시입니다. 정체성 용어 자체는 중립적이므로 특정 정체성 용어가 포함된 실제-부정적/긍정의 댓글이 균형 잡혀 있어야 합니다. 실제 음성의 수가 비정상적으로 적다면 모델이 긍정적 또는 중립적인 맥락에서 사용된 정체성 용어의 예를 많이 보지 못했음을 나타냅니다. 이 경우 모델은 정체성 용어와 악의성 사이의 상관관계를 학습할 수 있습니다.
재현율
재현율은 양성으로 올바르게 분류된 실제 양성 예측의 비율입니다. 모델이 성공적으로 포착한 악의적인 댓글의 비율을 나타냅니다. 여기에서는 거짓양성 (악의적인 것으로 분류된 무독성 댓글)과 관련된 편향이 우려되며 재현율은 이 문제에 관한 유용한 정보를 제공하지 않습니다.

편향 해결

다음 중 연습 #1연습 #2에 사용된 학습 데이터의 편향을 해결하는 효과적인 방법은 무엇인가요? 아래 옵션을 살펴보세요.
정체성 용어가 포함된 부정적인 (비독성) 예시를 학습 세트에 추가합니다.
정체성 용어가 포함된 부정적인 예시 (실제로는 악의적이지 않은 댓글)를 추가하면 학습 세트의 균형을 유지하는 데 도움이 됩니다. 그러면 모델이 악의적인 컨텍스트와 악의적이지 않은 컨텍스트에서 사용되는 정체성 용어의 균형을 더 잘 파악하여 용어 자체가 중립적임을 학습할 수 있습니다.
정체성 용어가 포함된 보다 긍정적인 (악의적인) 예시를 학습 세트에 추가합니다.
악의적인 표현은 정체성 용어가 포함된 예시 중 하위 집합에서 이미 과장되고 있습니다. 이러한 예시를 학습 세트에 더 많이 추가하면 기존의 편향을 해결하기보다는 오히려 악화시킬 수 있습니다.
정체성 항이 없는 부정 (비독성) 예시를 학습 세트에 추가합니다.
정체성 용어는 제외 예시에서 이미 충분히 표현되지 않고 있습니다. 항등식이 없는 부정적인 예를 추가하면 이러한 불균형이 증가하며 편향을 해결하는 데 도움이 되지 않습니다.
정체성 용어가 없는 더 긍정적인 (악의적) 예시를 학습 세트에 추가합니다.

항등식이 없는 긍정적인 예를 더 추가하면 모델이 이전에 학습한 악의성 및 정체성 용어 간의 연관성을 끊는 데 도움이 될 수 있습니다.

편향 평가하기

자체 텍스트 악의성 분류기를 처음부터 학습시켰으며 엔지니어링팀에서는 악의적인 것으로 분류된 댓글의 표시를 자동으로 억제하기 위해 사용할 계획입니다. 성별 관련 댓글의 악의성에 대한 편향으로 인해 성별에 관한 악의적이지 않은 담론이 억제될 수 있다고 우려되며 분류기 예측에서 성별 관련 편향을 평가하려고 합니다. 다음 중 모델을 평가하는 데 사용해야 하는 측정항목은 무엇인가요? 아래 옵션을 살펴보세요.
거짓양성률 (FPR)
프로덕션에서는 모델이 양성 (악의적) 예측을 자동으로 억제하는 데 사용됩니다. 목표는 모델이 성별 관련 댓글에서 전체 댓글보다 높은 비율로 거짓양성 (모델이 악의적으로 잘못 분류한 무독성 댓글)을 억제하지 않도록 하는 것입니다. 성별 하위 그룹의 FPR을 전체 FPR과 비교하는 것은 사용 사례의 편향 해결을 평가하는 좋은 방법입니다.
거짓음성률 (FNR)
FNR은 모델이 포지티브 클래스 (여기서는 '악의적임')를 네거티브 클래스 ('비독성')로 잘못 분류하는 비율을 측정합니다. 이 사용 사례에서는 실제로 악의적인 댓글이 필터를 통과하여 사용자에게 표시되는 비율을 알려줍니다. 여기서 주요 관심사는 악의적이지 않은 담론을 억제하는 측면에서 편향이 나타나는 방식입니다. FNR은 이러한 모델 성능 차원에 관한 어떠한 정보도 제공하지 않습니다.
정확성
정확도는 올바른 모델 예측의 비율을 측정하고 반대로 잘못된 예측의 비율을 측정합니다. 이 사용 사례의 경우 정확성은 필터가 악의적이지 않은 담론을 억제하거나 악의적인 담론을 표시했을 가능성을 나타냅니다. 사용자의 주요 관심사는 후자가 아닌 전자에 있습니다. 정확성은 두 가지 문제를 혼합하므로 여기에서 사용하기에 이상적인 평가 측정항목은 아닙니다.
AUC
AUC는 모델의 예측 능력의 절대 측정값을 제공합니다. 전반적인 성능을 평가하는 데 좋은 측정항목입니다. 그러나 여기에서는 특히 댓글 비표시율에 관한 문제이며 AUC는 이 문제에 관한 직접적인 정보를 제공하지 않습니다.
콘텐츠 운영자가 팀에 추가되었으며 제품 관리자가 분류 기준의 배포 방식을 변경하기로 결정했습니다. 필터링 소프트웨어가 악의적인 것으로 분류된 댓글을 자동으로 표시하지 않는 대신 콘텐츠 운영자가 검토할 수 있도록 댓글을 표시합니다. 사람이 악의적이라고 라벨이 지정된 댓글을 검토하므로 더 이상 콘텐츠 억제의 형태로 편향이 나타나지 않습니다. 다음 중 편향 및 편향 해결의 효과를 측정하는 데 사용할 수 있는 측정항목은 무엇인가요? 아래 옵션을 살펴보세요.
거짓양성률 (FPR)
거짓양성률은 악의적이지 않은 댓글로 잘못 분류된 댓글의 비율을 알려줍니다. 이제 인간 운영자가 모델 라벨이 '악의적임'으로 지정된 모든 댓글을 감사하고 대부분의 거짓양성을 포착하므로 FPR은 더 이상 주요 우려사항이 아닙니다.
거짓음성률 (FNR)
운영자가 '악의적임' 라벨이 지정된 모든 댓글을 감사하고 거짓양성이 억제되지 않도록 하는 동안 '악의적임' 라벨이 지정된 댓글은 검토하지 않습니다. 따라서 거짓음성과 관련된 편향이 발생할 수 있습니다. FNR (음성으로 분류된 실제 양성 비율)을 사용하여 성별 하위 그룹의 악의적인 표현이 전체 댓글보다 무독성으로 라벨이 지정될 가능성이 더 높은지 체계적으로 평가할 수 있습니다.
정밀도
정밀도는 실제로 양성인 양성 예측의 비율(이 경우 올바른 '악의적인' 예측의 비율)을 나타냅니다. 운영자가 모든 '악의적인' 예측을 감사하게 되므로 정밀도를 기본 평가 측정항목 중 하나로 지정할 필요는 없습니다.
재현율
재현율은 올바르게 분류된 실제 양성의 비율을 나타냅니다. 이 값에서 잘못 분류된 실제 양성 댓글의 비율(1 – 재현율)을 도출할 수 있습니다. 이는 성별 관련 악의적인 댓글이 전체 댓글과 비교하여 '악의적이지 않은' 댓글로 불균형적으로 잘못 분류되었는지 측정하는 데 유용한 측정항목입니다.