머신러닝 용어집: 공정성

이 페이지에는 공정성 용어집 용어가 포함되어 있습니다. 모든 용어집 용어를 보려면 여기를 클릭하세요.

A

속성

#fairness

특성의 동의어입니다.

머신러닝 공정성에서 속성은 개인과 관련된 특성을 지칭하는 경우가 많습니다.

자동화 편향

#fairness

인간의 의사 결정권자가 자동화된 의사결정 시스템에서 오류를 발생시키는 경우에도 자동화 없이 생성된 정보보다 자동화된 의사결정 시스템이 제안하는 권장사항을 선호하는 경우입니다.

편향(bias)(윤리/공정성)

#fairness
#fundamentals

1. 특정 사물, 사람 또는 집단에 대한 고정 관념, 편견 또는 편견 이러한 편향은 데이터의 수집 및 해석, 시스템 설계, 사용자가 시스템과 상호작용하는 방식에 영향을 줄 수 있습니다. 이러한 유형의 편향에는 다음이 포함됩니다.

2. 샘플링 또는 보고 절차에 의해 발생한 계통 오류입니다. 이러한 유형의 편향에는 다음이 포함됩니다.

머신러닝 모델의 편향 항 또는 예측 편향과 혼동해서는 안 됩니다.

C

확증 편향

#fairness

기존 신념이나 가설을 확증하는 방식으로 정보를 검색, 해석, 호감, 회상하는 경향입니다. 머신러닝 개발자는 기존의 신념을 뒷받침하는 결과에 영향을 미치는 방식으로 의도치 않게 데이터를 수집하거나 라벨을 지정할 수 있습니다. 확증 편향은 일종의 내재적 편향입니다.

실험자 편향은 기존 가설이 확인될 때까지 실험자가 모델 학습을 계속하는 일종의 확증 편향입니다.

반사실적 공정성

#fairness
공정성 측정항목은 하나 이상의 민감한 속성을 제외하고 분류기가 첫 번째 사용자와 동일한 다른 개인과 동일한 결과를 생성하는지 확인합니다. 반사실적 공정성에 대한 분류기 평가는 모델에서 잠재적 편향성 요인을 표시하는 한 가지 방법입니다.

반사실적 공정성에 관한 자세한 내용은 '세계가 충돌하는 경우: 공정성의 다른 반사실적 가정 통합'을 참조하세요.

포함 편향

#fairness

표본 선택 편향을 참조하세요.

D

인구통계 패리티

#fairness

공정성 측정항목은 모델 분류 결과가 특정 민감한 속성에 종속되지 않는 경우에 충족됩니다.

예를 들어, Lilliputians와 Brobdingnagians가 모두 Glubbdubdrib University에 지원하는 경우, 합격한 Lilliputians 비율이 허가된 Brobdingnagians의 비율과 같다면 한 그룹의 평균 품질이 더 우수한지 여부와 관계없이 인구통계 패리티가 달성됩니다.

균등화 확률기회 균등과 대비되는 분류에서는 민감한 속성에 종속되도록 분류 결과를 집계하지만, 지정된 특정 정답 라벨에 대한 분류 결과는 민감한 속성에 종속되지 않습니다. 인구통계 패리티를 위해 최적화할 때 장단점을 설명하는 시각화는 '스마트한 머신러닝으로 차별 공격'을 참조하세요.

이질적인 영향

#fairness

서로 다른 인구 하위 그룹에 영향을 미치는 사람에 관해 불합리한 결정을 내립니다. 일반적으로 알고리즘에 따른 의사 결정 프로세스가 일부 하위 그룹에 해를 끼치거나 다른 하위 그룹에 도움이 되는 상황을 말합니다.

예를 들어 Lilliputian이 미니어처 주택 임대 자격을 부여하는 알고리즘이 우편 주소에 특정 우편번호가 포함된 경우 '부적격'으로 분류할 가능성이 높다고 가정합니다. Big-Endian Lilliputians가 Little-Endian Lilliputians보다 우편 주소가 더 많은 우편 주소를 보유할 가능성이 더 높으면 이 알고리즘이 서로 다른 영향을 미칠 수 있습니다.

하위 그룹 특성이 알고리즘 결정 프로세스에 명시적 입력일 때 발생하는 불일치에 초점을 맞추는 이질적인 처리와 대비되는 개념입니다.

이질 치료

#fairness

알고리즘의 의사 결정 프로세스에 주체의 민감한 속성을 감안하여 사용자의 하위 그룹이 다르게 취급되도록 합니다.

예를 들어 대출 신청 시 제공한 데이터를 바탕으로 Liliiputian이 미니어처 주택담보대출 자격요건 충족 여부를 결정하는 알고리즘을 생각해 보겠습니다. 알고리즘이 Lilliputian의 제휴를 Big-Endian 또는 Little-Endian을 입력으로 사용하는 경우 이 차원을 따라 서로 다른 처리가 적용됩니다.

하위 그룹이 모델에 대한 입력인지 여부와 관계없이 알고리즘이 하위 그룹에 미치는 사회적 영향의 차이에 초점을 두는 이질적인 영향과 대비되는 개념입니다.

E

기회의 평등

#fairness
공정성 측정항목은 원하는 라벨 (사용자에게 유리하거나 이익을 주는 라벨)과 특정 속성이 각각 해당 속성의 모든 값에 대해 선호되는 라벨을 적절하게 예측하는지 확인하는 공정성 측정항목입니다. 즉, 기회의 균등은 기회를 얻어야 하는 사용자가 그룹 멤버십에 관계없이 동등하게 참여할 가능성이 있는지 여부를 측정합니다.

예를 들어 Glubbdubdrib University에서 Lilliputians과 Brobdingnagians가 엄격한 수학 프로그램에 수료할 수 있다고 가정해 보겠습니다. Lilliputians의 중학교에서는 탄탄한 수학 교육과정을 제공하고, 대다수 학생은 대학 프로그램을 이용할 자격이 있습니다. 브로딩나지안 중학교에서는 수학 수업을 제공하지 않으며, 그 결과 자격을 갖춘 학생 수가 훨씬 적습니다. 릴리푸트 학자이든 브로딩나기 언어 학생인지 여부와 무관하게 자격을 갖춘 학생들도 합격할 가능성이 동등하다면 국적 (Lilliputian 또는 Brobdingnagian)을 존중하는 '입장'이라는 라벨이 선호되면 기회의 균등이 충족됩니다.

예를 들어 100명의 Lilliputians, 100명의 Brobdingnagians가 Glubbdubdrib 대학교에 지원하면 입학과 관련된 결정은 다음과 같이 이루어집니다.

표 1. Lilliputian 신청자 (90% 는 자격 확인)

  적격성 확인됨 자격 없음
수락 45 3
거절됨 45 7
합계 90 10
합격한 학생 비율: 45/90 = 50%
부적격한 학생 비율: 7/10 = 70%
합격한 총 Lilliputian 학생 비율: (45+3)/100 = 48%

 

표 2. 브로딩나지어 지원자 (10% 적격):

  적격성 확인됨 자격 없음
수락 5 9
거절됨 5 81
합계 10 90
합격한 학생 비율: 5/10 = 50%
부적격한 학생 비율: 81/90 = 90%
입학률(5+9)/100 = 14%인 브로딩나지 학생 비율

앞의 예시에서 자격이 있는 Lilliputians와 Brobdingnagians는 둘 다 합격할 확률이 50% 이므로, 적격한 학생이 입학할 기회를 평등하게 충족할 수 있습니다.

기회의 균등에 관한 자세한 내용은 '지도 학습의 기회 균등'을 참조하세요. 기회의 균등을 위해 최적화할 때 장단점을 설명하는 시각화는 '스마트한 머신러닝으로 차별 공격'을 참조하세요.

균등 확률

#fairness
특정 라벨 및 속성의 경우 분류기가 해당 속성의 모든 값에 대해 해당 라벨을 똑같이 잘 예측하는지 확인하는 공정성 측정항목

예를 들어 Glubbdubdrib University에서 Lilliputians와 Broobdingnagians에게 엄격한 수학 프로그램이 주어진다고 합시다. Lilliputians의 중학교는 탄탄한 수학 교육과정을 제공하고, 대다수의 학생이 대학 프로그램을 이수할 자격이 있습니다. 브로딩나지안 중학교에서는 수학 수업을 제공하지 않으므로 결과적으로 필요한 학생 수가 훨씬 더 적습니다. 지원자가 릴리푸티언이든 브로딩나지안이든, 자격이 있는 경우 프로그램 참여 자격을 동일하게 획득하고, 자격을 충족하지 못할 경우 거부될 확률이 같다는 동일한 승률은 충족됩니다.

100명의 Lilliputians와 100 Brobdingnagians가 Glubbdubdrib 대학교에 지원한다고 가정해 보겠습니다.

표 3. Lilliputian 신청자 (90% 는 자격 확인)

  적격성 확인됨 자격 없음
수락 45 2
거절됨 45 8
합계 90 10
합격한 학생 비율: 45/90 = 50%
부적격한 학생 비율: 8/10 = 80%
합격한 총 릴리푸트 학생 비율: (45+2)/100 = 47%

 

표 4. 브로딩나지어 지원자 (10% 적격):

  적격성 확인됨 자격 없음
수락 5 18
거절됨 5 72시간
합계 10 90
합격한 학생 비율: 5/10 = 50%
부적격한 학생 비율: 72/90 = 80%
입학률(5+18)/100 = 23%가 차지하는 브로딩나지 학생 비율

자격을 갖춘 Lilliputian 학생과 Brobdingnagian 학생 모두 합격할 확률은 50% 이고, 부적격한 Lilliputian 학생과 Brobdingnagian 학생은 거부될 가능성이 80% 이므로 승률은 모두 만족합니다.

균등화 확률은 '지도 학습의 기회 평등'에서 공식적으로 정의됩니다. 즉, '예측자 ж는 보호되는 속성 A와 결과 Y에 대해 동일한 배당률을 충족하며, 소실과 A는 독립적이고 Y에 대해 조건부입니다.'

실험자 편향

#fairness

확증 편향을 참조하세요.

F

공정성 제약

#fairness
공정성의 정의가 하나 이상 충족되도록 알고리즘에 제약조건을 적용합니다. 공정성 제약의 예시는 다음과 같습니다.

공정성 측정항목

#fairness

측정 가능한 '공정성'의 수학적 정의 일반적으로 사용되는 공정성 측정항목은 다음과 같습니다.

많은 공정성 측정항목이 상호 배타적입니다. 공정성 측정항목의 비호환성을 참조하세요.

G

그룹 귀인 편향

#fairness

특정 개인의 진실이 해당 그룹에 속한 모든 사람에게도 진실이라고 가정합니다. 데이터 수집에 편의 샘플링을 사용하면 그룹 기여 분석 편향이 악화될 수 있습니다. 대표성이 없는 샘플에서 현실을 반영하지 않는 기여 분석이 만들어질 수 있습니다.

외부 집단 동질화 편향내집단 편향을 참조하세요.

I

내재적 편향

#fairness

멘탈 모델과 추억을 기반으로 자동으로 연결 또는 가정을 만듭니다. 내재적 편향은 다음에 영향을 줄 수 있습니다.

  • 데이터 수집 및 분류 방법
  • 머신러닝 시스템의 설계 및 개발 방식

예를 들어 결혼 사진을 식별하기 위한 분류 기준을 만들 때 엔지니어는 사진에 흰색 드레스가 있는 특성을 사용할 수 있습니다. 그러나 흰색 드레스는 특정 시대와 특정 문화에서만 관례적으로 사용됩니다.

확증 편향을 참조하세요.

공정성 측정항목의 비호환성

#fairness

일부 공정성 개념은 상호 호환되지 않으며 동시에 충족할 수 없다는 개념입니다. 따라서 모든 ML 문제에 적용될 수 있는 공정성의 수치화를 위한 단일 범용 측정항목은 없습니다.

이렇게 하면 실망하는 것처럼 보일 수 있지만 공정성 측정항목의 비호환성이 공정성의 노력이 무의미하다는 것을 의미하는 것은 아닙니다. 대신 특정 사용 사례의 악영향을 방지하기 위해 특정 ML 문제에 공정성을 맥락에 맞게 정의해야 한다고 제안합니다.

이 주제에 관한 자세한 내용은 '공정성의 (임의 가능성)'을 참고하세요.

개인 공정성

#fairness

비슷한 개인이 유사하게 분류되는지 여부를 확인하는 공정성 측정항목 예를 들어 Brobdingnagian Academy는 성적과 표준 시험 점수가 동일한 두 학생이 합격률을 높일 수 있도록 하여 개인 공정성을 충족할 수 있습니다.

개별 공정성은 '유사성'(이 경우 점수 및 시험 점수)을 정의하는 방법에 전적으로 의존하며, 유사성 측정항목에 중요한 정보 (예: 학생 교육과정의 엄격성)가 누락된 경우 새로운 공정성 문제가 발생할 위험이 있습니다.

개별 공정성에 대한 자세한 내용은 '인지도를 통한 공정성'을 참조하세요.

내집단 편향

#fairness

자신이 속한 집단의 특성 또는 자신의 성격을 드러내는 것입니다. 테스터 또는 평가자가 머신러닝 개발자의 친구, 가족 또는 동료로 구성된 경우 그룹 내 편견으로 제품 테스트 또는 데이터 세트가 무효화될 수 있습니다.

내집단 편향의 그룹 귀인 편향의 일종입니다. 외부 집단 동질화 편향도 참조하세요.

구매 불가

무응답 편향

#fairness

표본 선택 편향을 참조하세요.

O

외부 집단 동질화 편향

#fairness

태도, 가치, 성격 특성 및 기타 특성을 비교할 때 그룹 외 구성원을 그룹 내 구성원과 더 유사한 것으로 인식하는 경향이 있습니다. 내집단은 정기적으로 상호작용하는 사람을 말하고, 외부 집단은 정기적으로 상호작용하지 않는 사람을 말합니다. 외부 집단에 관한 속성을 제공하도록 사용자에게 요청하여 데이터 세트를 생성하는 경우, 이러한 특성은 참여자가 그룹 내 사용자를 위해 나열한 속성보다 덜 미묘하고 고정관념이 강할 수 있습니다.

예를 들어 Lilliputians는 다른 Lilliputian의 주택을 건축 스타일, 창, 문, 크기 등 작은 차이점을 언급하면서 자세히 설명할 수 있습니다. 그러나 같은 난쟁이들이 브로딩나지인들은 모두 같은 집에 산다고 선언할 수도 있습니다.

외부 집단 동질화 편향은 그룹 귀인 편향의 일종입니다.

내집단 편향을 참조하세요.

P

참여 편향

#fairness

무응답 편향의 동의어입니다. 표본 선택 편향을 참조하세요.

후처리

#fairness
#fundamentals

모델이 실행된 후에 모델의 출력을 조정합니다. 후처리를 사용하면 모델 자체를 수정하지 않고도 공정성 제약조건을 적용할 수 있습니다.

예를 들어 참양성률이 속성의 모든 값에 대해 동일한지 확인하여 일부 속성에 대해 기회 균등이 유지되도록 분류 임곗값을 설정하여 바이너리 분류기에 후처리를 적용할 수 있습니다.

예측 패리티

#fairness

공정성 측정항목: 특정 분류 기준에 대해 정밀도 비율이 고려 중인 하위 그룹에 상응하는지 확인합니다.

예를 들어 대학 합격을 예측하는 모델은 릴리푸티언과 브로딩나지안에 대한 정밀도가 동일하다면 국적에 대한 예측 패리티를 충족할 것입니다.

예측 패리티를 예측 패리티라고도 합니다.

예측 패리티에 관한 자세한 내용은 '공정성 정의 설명' (3.2.1항)을 참고하세요.

예측 비율 패리티

#fairness

예측 패리티의 또 다른 이름입니다.

사전 처리

#fairness
모델을 학습시키는 데 사용되기 전에 데이터를 처리합니다. 사전 처리는 영어 사전에서 발생하지 않는 단어를 영어 텍스트 자료에서 삭제하는 것만큼 간단할 수도 있고, 민감한 속성과 상관관계가 있는 속성을 가능한 한 많이 제거하여 데이터 포인트를 다시 표현하는 것처럼 복잡할 수도 있습니다. 사전 처리는 공정성 제약 조건을 충족하는 데 도움이 될 수 있습니다.

프록시 (민감한 속성)

#fairness
민감한 속성의 기본으로 사용되는 속성 예를 들어 개인의 우편번호가 소득, 인종 또는 민족의 프록시로 사용될 수 있습니다.

오른쪽

보고 편향

#fairness

사람들이 작업, 결과 또는 속성에 관해 쓰는 빈도가 실제 빈도나 속성이 개인 클래스의 특징이 되는 정도를 반영하지 않습니다. 보고 편향은 머신러닝 시스템에서 학습하는 데이터 구성에 영향을 줄 수 있습니다.

예를 들어 책에서 웃음라는 단어가 호흡보다 더 많이 나옵니다. 책 코퍼스의 웃음과 호흡의 상대적 빈도를 추정하는 머신러닝 모델은 아마도 웃음이 호흡보다 더 일반적이라고 판단할 것입니다.

S

표본 추출 편향

#fairness

표본 선택 편향을 참조하세요.

표본 선택 편향

#fairness

데이터에서 관찰된 샘플과 관찰되지 않는 샘플 간에 체계적인 차이가 발생하는 선택 프로세스로 인해 샘플링된 데이터에서 도출한 오류입니다. 다음과 같은 형태의 선택 편향이 있습니다.

  • 포함 편향: 데이터 세트에 표시되는 모집단이 머신러닝 모델이 예측하는 모집단과 일치하지 않습니다.
  • 표본 추출 편향: 데이터가 대상 그룹에서 무작위로 수집되지 않습니다.
  • 무응답 편향 (응답 참여 편향): 특정 그룹의 사용자가 다른 그룹의 사용자와 다른 비율로 설문조사를 거부합니다.

예를 들어 사람들의 영화 관람을 예측하는 머신러닝 모델을 만든다고 가정해 보겠습니다. 학습 데이터를 수집하기 위해 극장의 맨 앞줄에서 영화를 상영하는 모든 사용자에게 설문조사를 나눠줍니다. 언뜻 보기에 이 방법이 데이터 세트를 수집하는 합리적인 방법처럼 보일 수도 있지만, 이러한 형태의 데이터 수집으로 인해 다음과 같은 선택 편향이 발생할 수 있습니다.

  • 포함 편향: 영화를 보기로 선택한 모집단에서 샘플링하면 모델의 예측이 해당 영화에 대한 관심 수준을 아직 표현하지 않은 사용자를 대상으로 일반화되지 않을 수 있습니다.
  • 표본 추출 편향: 의도한 인구 (영화 속의 모든 사람)로부터 무작위로 샘플링하는 대신 맨 앞줄의 사람들만 샘플링했습니다. 맨 앞줄에 앉아 있는 사람이 다른 행에 있는 사람보다 영화에 더 관심이 있을 수 있습니다.
  • 무응답 편향: 일반적으로 의견을 강하게 표출하는 사람들은 경미한 의견을 가진 사람보다 선택적 설문조사에 더 자주 반응하는 경향이 있습니다. 영화 설문조사는 선택사항이므로 응답은 정규 (종 모양) 분포보다 이중 분포를 형성할 가능성이 높습니다.

민감한 속성

#fairness
법적, 윤리적, 사회적 또는 개인적인 이유로 특별히 고려할 수 있는 인간의 속성입니다.

U

알 수 없음 (민감한 속성)

#fairness

민감한 속성은 있지만 학습 데이터에는 포함되지 않은 상황입니다. 민감한 속성은 데이터의 다른 속성과 상관관계가 있는 경우가 많기 때문에 민감한 속성을 인식하지 못하여 학습된 모델은 해당 속성과 관련하여 이질적인 영향을 갖게 되거나 다른 공정성 제약조건을 위반할 수 있습니다.