공정성: 편향의 유형

머신러닝 모델이라고 해서 본질적으로 객관적인 것은 아닙니다. 엔지니어는 학습 사례로 이루어진 데이터 세트를 입력하여 모델을 학습시키며 데이터의 사전준비와 선정에 사람이 관여하기 때문에 모델의 예측이 편향되기 쉽습니다.

모델을 만들 때 데이터에 나타날 수 있는 일반적인 사람들의 편향을 인식하여 영향을 최소화할 수 있도록 미리 조치하는 것이 중요합니다.

보고 편향

보고 편향은 데이터 세트에 수집된 이벤트, 속성 및 결과의 빈도가 실제 빈도를 정확하게 반영하지 않을 때 나타납니다. 이 편향은 사람들이 '말할 필요도 없다고 느끼는' 일반적인 상황은 언급하지 않고 특별히 기억할 만하거나 특이한 상황만을 기록하려는 경향이 있기 때문에 발생합니다.

자동화 편향

자동화 편향은 두 시스템의 오류율과 관계없이 자동화 시스템이 생성한 결과를 비자동화 시스템이 생성한 결과보다 선호하는 경향을 말합니다.

표본 선택 편향

표본 선택 편향은 데이터 세트의 사례가 실제 분포를 반영하지 않는 방식으로 선정된 경우 발생합니다. 표본 선택 편향은 다음과 같은 여러 형태를 취할 수 있습니다.

  • 포함 편향: 선택된 데이터가 대표성을 갖지 않습니다.
  • 무응답 편향(또는 응답 참여 편향): 데이터 수집 시 참여도의 격차로 인해 데이터가 대표성을 갖지 못합니다.
  • 표본 추출 편향: 데이터 수집 과정에서 적절한 무작위선택이 적용되지 않았습니다.

그룹 귀인 편향

그룹 귀인 편향은 개인의 특성을 개인이 속한 그룹 전체의 특성으로 일반화하려는 경향을 말합니다. 이 편향의 두 가지 주요 양상은 다음과 같습니다.

  • 내집단 편향: 자신이 소속된 그룹 또는 본인도 공유하는 특성을 가진 그룹의 구성원을 선호하는 경향입니다.
  • 외부 집단 동질화 편향: 자신이 속하지 않은 그룹의 개별 구성원에 관해 고정 관념을 갖거나 그들이 모두 동일한 특징을 가진다고 판단하는 경향입니다.

내재적 편향

내재적 편향은 일반적으로 적용할 필요가 없는 자신의 정신적 모델과 개인적 경험을 바탕으로 가정할 때 발생합니다.

내재적 편향의 일반적인 형태는 확증 편향으로 모델을 만드는 사람이 자기도 모르게 이미 가지고 있는 믿음이나 가설을 긍정하는 방향으로 데이터를 처리하는 것을 말합니다. 경우에 따라 모델을 만드는 사람이 자신의 원래 가설과 일치할 때까지 반복해서 모델을 학습시키기도 하는데 이를 실험자 편향이라고 합니다.