머신러닝 용어집: 공정성

이 페이지에는 공정성 용어집 용어가 포함되어 있습니다. 모든 용어집을 보려면 여기를 클릭하세요.

A

속성

#fairness

기능의 동의어입니다.

머신러닝 공정성에서 속성은 개인과 관련된 특성을 언급하는 경우가 많습니다.

자동화 편향

#fairness

사람의 의사 결정권자가 자동화를 통해 이루어진 정보보다 자동화된 의사 결정 시스템에서 나온 권장사항을 선호할 때, 자동 의사결정 시스템에서 오류가 발생할 때도 마찬가지입니다.

B

편향 (윤리/공정성)

#fairness
#fundamentals

1. 특정 사물, 사람 또는 집단을 다른 사람보다 고정 관념, 편견 또는 편파적 표현으로 보여줌 이러한 편향은 데이터의 수집 및 해석, 시스템 설계, 사용자가 시스템과 상호작용하는 방식에 영향을 줄 수 있습니다. 이러한 유형의 편향은 다음과 같습니다.

2. 샘플링 또는 보고 절차로 인해 발생하는 체계적 오류입니다. 이러한 유형의 편향은 다음과 같습니다.

머신러닝 모델의 편향 항 또는 예측 편향과 혼동해서는 안 됩니다.

C

확증 편향

#fairness

정보를 검색하고 해석하며 선호하고 회상하는 방식으로 기존의 믿음이나 가설을 확증하는 경향이 있습니다. 머신러닝 개발자가 의도치 않게 데이터를 수집하거나 라벨을 지정하여 기존의 신념을 지지하는 결과에 영향을 미칠 수 있습니다. 확증 편향은 일종의 암시적 편향입니다.

실험자 편향은 기존 가설이 확인될 때까지 실험자가 모델을 계속 학습시키는 확인 편향의 한 형태입니다.

반사실적 공정성

#fairness
공정성 측정항목은 하나 이상의 민감한 속성을 제외하고 분류기가 첫 번째와 동일한 다른 개인과 동일한 결과를 생성하는지 확인합니다. 반사실적인 공정성에 대한 분류기 평가는 모델에서 잠재적 편향 원인을 표시하는 한 가지 방법입니다.

반사실적인 공정성에 대한 자세한 내용은 '세계가 충돌할 때: 공정성과 관련한 다른 가정의 통합'을 참조하세요.

포함 편향

#fairness

표본 선택 편향을 참조하세요.

D

인구통계 패리티

#fairness

공정성 측정항목은 모델 분류 결과가 주어진 민감한 속성에 종속되지 않는 경우에 충족됩니다.

예를 들어 Lilliputians와 Brobdingnagians가 모두 글루브두브립 대학에 지원하는 경우 수락한 Lilliputians의 비율이 허용된 다른 그룹의 평균보다 더 높은지 여부와 관계없이 인구통계가 허용된 패리티가 달성됩니다.

균등화된 확률기회의 균등과 대비되는 이 분류에서는 집계된 분류가 민감한 속성에 의존하도록 허용하지만, 특정한 특정 정답 라벨에 대한 분류 결과가 민감한 속성에 종속되도록 허용하지 않습니다. 인구통계 패리티에 맞게 최적화할 때의 장단점을 설명하는 시각화는 "스마트한 머신러닝으로 차별 공격'을 참조하세요.

이질적인 영향

#fairness

다양한 하위 집단에 불균형하게 영향을 미치는 사용자에 대한 결정을 내립니다. 이는 일반적으로 알고리즘 의사 결정 프로세스가 일부 다른 그룹에 비해 해를 끼치거나 혜택을 얻는 상황을 의미합니다.

예를 들어 Lilliputian이 미니어처 주택 대출 적격성을 판단하는 알고리즘에 우편 주소가 특정 우편번호를 포함하는 경우 '부적합'으로 분류될 가능성이 높다고 가정해 보겠습니다. Big-Endian Lilliputians가 Little-Endian Lilliputians보다 이 우편 주소가 있는 우편 주소를 사용할 가능성이 높다면 이 알고리즘이 서로 다른 영향을 미칠 수 있습니다.

알고리즘이 의사 결정 프로세스에 명시적으로 입력되는 경우 하위 그룹 특성이 발생하는 불균형에 초점을 맞추는 이질적 처리와 대조됩니다.

이질적 치료

#fairness

알고리즘의 의사 결정 프로세스에 민감한 속성을 반영함으로써 사용자의 하위 그룹이 다르게 취급되도록 합니다.

예를 들어 대출 신청 시 제공된 데이터를 바탕으로 Lilliputians의 미니어처 주택 대출 적격성을 판단하는 알고리즘을 살펴보겠습니다. 알고리즘이 Lilliputian의 제휴를 Big-Endian 또는 Little-Endian을 입력으로 사용하는 경우 이 차원을 따라 서로 다른 처리가 적용됩니다.

하위 그룹이 모델에 대한 입력인지와 상관없이 하위 그룹에 대한 알고리즘 결정의 사회적 영향 간 차이에 초점을 맞추는 이질적인 영향과 대비되는 개념입니다.

E

기회의 균등

#fairness
공정성 측정항목은 선호하는 라벨(사람에게 이익이나 이점을 부여하는 라벨)과 특정 속성에 대해 해당 속성의 모든 값에 대해 선호하는 라벨이 같을 것이라고 예측합니다. 즉, 기회의 균등은 기회를 포착할 수 있는 사람이 그룹 멤버십과 상관없이 기회를 얻을 가능성이 동등한지 여부를 측정합니다.

예를 들어 Glubbdubdrib University에서 Lilliputians와 Brobdingnagians 모두 엄격한 수학 프로그램을 인정한다고 가정해 보겠습니다. Lilliputians의 중학교에서는 강력한 수학 커리큘럼을 제공하고 있으며 대다수의 학생이 대학 프로그램을 이용할 자격이 있습니다. 브로딩나기안 중학교에서는 수학 수업을 제공하지 않기 때문에 자격을 갖춘 학생이 훨씬 적습니다. 자국인이든 브로딩나지어든 관계없이 자격을 갖춘 학생들이 입학할 가능성이 동등하다면 국적 (Lilliputian 또는 Brobdingnagian)을 존중하는 '허가된' 라벨이 선호됩니다.

예를 들어 100명의 릴리푸트교인과 100명의 브로딩나기어가 글루브두브립 대학교에 지원하면 입학 결정이 다음과 같이 이루어진다고 가정해 봅시다.

표 1. 릴리퓨티안 신청자 (90% 가 자격 부여)

  적격성 확인됨 자격 없음
수락됨 45 3
거부됨 45 7
합계 90 10
자격 있는 학생 비율: 45/90 = 50%
자격 없는 학생 비율: 7/10 = 70%
총 릴리푸트 학생 비율: (45+3)/100 = 48%

 

표 2. 브로딩나지안 신청자 (10%):

  적격성 확인됨 자격 없음
수락됨 5 9
거부됨 5 81
합계 10 90
자격 있는 학생 비율: 5/10 = 50%
자격 요건을 충족하지 않는 학생 비율: 81/90 = 90%
브로딩나그 학생 허용 총 비율: (5+9)/100 = 14%

위 예시에는 자격을 갖춘 릴리퓨션과 브로딩나지안이 모두 합격할 확률이 50% 이므로 자격을 갖춘 학생의 참여를 허용할 수 있는 평등 기회가 충족됩니다.

기회의 균등에 대한 자세한 내용은 &hl=ko 지도 감독의 기회 동등성을 참조하세요. 또한 기회의 균등에 맞게 최적화할 때의 절충안을 시각화하는 방법은 "스마트한 머신러닝으로 차별 해결하기를 참조하세요.

균등 확률

#fairness
특정 라벨 및 속성에 대해 분류기가 속성의 모든 값에 대해 동일한 라벨을 균등하게 예측하는지 확인하는 공정성 측정항목

예를 들어 Glubbdubdrib University에서 Lilliputians와 Braobdingnagians가 엄격한 수학 프로그램을 인정한다고 가정해 보겠습니다. Lilliputians의 중학교에서는 강력한 수학 커리큘럼을 제공하고 대다수의 학생이 대학 프로그램을 이용할 자격이 있습니다. 브로딩나기안스 중학교에서는 수학 수업을 전혀 제공하지 않기 때문에 자격 요건을 갖춘 학생들이 훨씬 적습니다. 신청자가 리리푸티안이든 브로딩나기안이든, 자격이 있다면 프로그램에 합격할 가능성이 같고, 자격을 갖추지 못한 경우 거부될 가능성도 같다면 같음의 확률로 충족됩니다.

100명의 릴리푸트교인과 100명의 브로딩나기안이 Glubbdubdrib 대학교에 지원되며 입학 결정은 다음과 같습니다.

표 3. 릴리퓨티안 신청자 (90% 가 자격 부여)

  적격성 확인됨 자격 없음
수락됨 45 2
거부됨 45 8
합계 90 10
자격 있는 학생 비율: 45/90 = 50%
자격 없는 학생 비율: 8/10 = 80%
총 릴리푸트 학생 비율: (45+2)/100 = 47%

 

표 4. 브로딩나지안 신청자 (10%):

  적격성 확인됨 자격 없음
수락됨 5 18
거부됨 5 72
합계 10 90
자격 있는 학생 비율: 5/10 = 50%
자격 요건을 충족하지 않는 학생 비율: 72/90 = 80%
총 브로딩나지 학생 비율: (5+18)/100 = 23%

적격한 Lilliputian 및 Brobdingnagian 학생은 모두 합격할 확률이 50% 이고 자격 없는 Lilliputian 및 Brobdingnagian은 거부될 가능성이 80% 이므로 같음의 확률은 충족됩니다.

같음 확률은 &hl=ko 지도 학습 기회의 균등에 공식적으로 정의되어 있습니다. <quo class;pha 예측;

실험자 편향

#fairness

확증 편향을 참조하세요.

F

공정성 제약조건

#fairness
알고리즘에 제약조건을 적용하여 하나 이상의 공정성 정의를 충족합니다. 공정성 제약의 예는 다음과 같습니다.

공정성 측정항목

#fairness

측정 가능한 '공정성'의 수학적 정의입니다. 일반적으로 사용되는 공정성 측정항목은 다음과 같습니다.

많은 공정성 측정항목은 상호 배타적입니다. 공정성 측정항목의 비호환성을 참고하세요.

G

그룹 기여 분석 편향

#fairness

개인의 정보가 참이라고 가정하면 해당 그룹의 모든 사용자에게도 적용됩니다. 데이터 수집에 편의 샘플링을 사용하면 그룹 기여 분석 편향의 영향이 악화될 수 있습니다. 대표성이 없는 샘플에서는 현실을 반영하지 않는 기여 분석을 할 수 있습니다.

외부 집단 동질화 편향내집단 편향도 참조하세요.

I

내재적 편향

#fairness

정신적 모델과 추억을 바탕으로 자동으로 연결 또는 가정을 합니다. 암시적 편향은 다음과 같은 영향을 줄 수 있습니다.

  • 데이터 수집 및 분류 방식
  • 머신러닝 시스템의 설계 및 개발 방법

예를 들어 결혼 사진을 식별하기 위한 분류기를 작성할 때 엔지니어는 사진에 흰색 드레스의 존재를 특성으로 사용할 수 있습니다. 그러나 흰색 드레스는 특정 시대와 특정 문화에서만 관례했습니다.

확증 편향도 참조하세요.

공정성 측정항목의 비호환성

#fairness

일부 공정성 개념은 상호 호환되지 않으며 동시에 충족할 수 없다는 개념입니다. 따라서 모든 ML 문제에 적용될 수 있는 공정성을 수치화하는 단일 범용 측정항목은 없습니다.

실망스러울 수도 있지만 공정성 측정항목의 비호환성이 공정성에 대한 노력이 무리하다는 것을 의미하지는 않습니다. 대신 공정성은 사용 사례와 관련된 피해를 방지하기 위해 특정 ML 문제에 대해 문맥적으로 정의해야 한다고 제안합니다.

이 주제에 관한 자세한 내용은 "공정성 가능성(im)'을 참조하세요.

개인 공정성

#fairness

유사한 개인이 비슷하게 분류되는지 확인하는 공정성 측정항목입니다. 예를 들어 브로딩나지 아카데미는 동일한 성적과 표준 시험 점수를 받은 두 학생이 동등하게 입학할 가능성을 보장하여 개인의 공정성을 충족할 수 있습니다.

개별 공정성은 전적으로 '유사성'을 정의하는 방식(이 경우 성적 및 시험 점수)에 따라 달라지며, 유사성 측정항목에서 중요한 정보 (예: 학생 커리큘럼의 철저함)를 누락할 경우 새로운 공정성 문제가 발생할 위험이 있습니다.

개별 공정성에 대한 자세한 내용은 '인식을 통한 공정성'을 참조하세요.

내집단 편향

#fairness

특정 집단 또는 자기만의 특징을 부분적으로 보여줌 테스터 또는 평가자가 머신러닝 개발자의 친구, 가족 또는 동료로 구성된 경우 그룹 내 편향으로 인해 제품 테스트 또는 데이터 세트가 무효화될 수 있습니다.

그룹 내 편향은 그룹 귀인 편향의 한 형태입니다. 외부 집단 동질화 편향도 참조하세요.

구매 불가

무응답 편향

#fairness

표본 선택 편향을 참조하세요.

O

외부 집단 동질화 편향

#fairness

태도, 가치, 인격 특성, 기타 특징을 비교할 때 그룹 내 구성원이 그룹 내 구성원보다 더 유사하게 보이는 경향이 있습니다. 그룹 내는 정기적으로 상호작용하는 사용자를, 외부 그룹은 정기적으로 상호작용하지 않는 사용자를 나타냅니다. 외부 집단에 관한 속성을 제공하도록 사용자에게 요청하여 데이터 세트를 생성하는 경우 이러한 속성은 참여자가 그룹 내 사용자에 대해 나열된 속성보다 더 미묘하고 더 고정관념이 강할 수 있습니다.

예를 들어, Lilliputians는 건축 스타일, 창, 문, 크기 등 약간의 차이를 설명하며 다른 릴리푸트인의 집을 자세히 설명할 수도 있습니다. 그러나 같은 난쟁이들이 브로딩나지인들은 모두 같은 집에 살고 있다고 선언할 수도 있습니다.

외부 집단 동질화 편향은 그룹 기여 분석 편향의 한 형태입니다.

그룹 내 편향도 참조하세요.

P

참여 편향

#fairness

무응답 편향의 동의어입니다. 표본 선택 편향을 참조하세요.

후처리

#fairness
#fundamentals

모델이 실행된 후에 모델의 출력을 조정합니다. 사후 처리를 사용하면 모델을 직접 수정하지 않고도 공정성 제약조건을 적용할 수 있습니다.

예를 들어 기회 균등이 일부 속성의 참양성률이 동일한지 확인하여 분류 임곗값을 설정하여 이 분류에 후처리를 적용할 수 있습니다.

예측 패리티

#fairness

공정성 측정항목 - 특정 분류기에서 정밀도 비율이 고려 중인 하위 그룹에 상응하는지 확인합니다.

예를 들어 대학 입학을 예측하는 모델은 릴리퍼티언스와 브로딩나지안의 정밀도가 동일한 경우 국적 예측 패리티를 충족합니다.

예측 패리티는 가끔 예측 요율 패리티라고도 불립니다.

예측 패리티에 대한 자세한 내용은 '공정성 정의'(섹션 3.2.1)를 참조하세요.

예측 비율 패리티

#fairness

예측 패리티의 또 다른 이름입니다.

사전 처리

#fairness
모델 학습에 사용되는 데이터 처리 전 사전 처리는 영어 텍스트에서 발생하지 않는 영어 텍스트 코퍼스에서 단어를 삭제하는 것만큼 간단하거나 민감한 속성과 관련된 속성을 최대한 제거하여 데이터 포인트를 다시 표현하는 것처럼 복잡할 수 있습니다. 사전 처리는 공정성 제약조건을 충족하는 데 도움이 될 수 있습니다.

프록시 (민감한 속성)

#fairness
민감한 속성의 기본으로 사용되는 속성입니다. 예를 들어 개개인의 우편번호가 소득, 인종 또는 민족의 프록시로 사용될 수 있습니다.

R

보고 편향

#fairness

사람들이 작업, 결과 또는 속성에 대해 작성하는 빈도는 실제 빈도나 속성이 개인 클래스의 특징이 되는 정도를 반영하지 않습니다. 보고 편향은 머신러닝 시스템이 학습하는 데이터의 구성에 영향을 줄 수 있습니다.

예를 들어 책에서 웃음라는 단어가 숨을 쉬는 것보다 더 많습니다. 책 코퍼스의 웃음과 호흡의 상대적 빈도를 추정하는 머신러닝 모델은 웃음이 호흡보다 흔하다는 것을 나타낼 수 있습니다.

S

샘플링 편향

#fairness

표본 선택 편향을 참조하세요.

선택 편향

#fairness

데이터에서 관찰된 샘플과 관찰되지 않는 샘플 사이에 계통적 차이가 발생하는 선택 프로세스로 인해 샘플링된 데이터에서 도출한 결론 오류 다음과 같은 형태의 선택 편향이 있습니다.

  • 포함 편향: 데이터 세트에 표시되는 모집단이 머신러닝 모델이 예측하는 모집단과 일치하지 않습니다.
  • 샘플링 편향: 데이터는 타겟 그룹에서 무작위로 수집되지 않습니다.
  • 무응답 편향 (참여 편향이라고도 함): 특정 그룹의 사용자는 다른 그룹의 사용자와는 다른 비율로 설문조사를 선택 해제합니다.

예를 들어 영화에 대한 사람들의 즐거움을 예측하는 머신러닝 모델을 만든다고 가정해 보겠습니다. 학습 데이터를 수집하기 위해 극장의 맨 앞 행에 영화를 상영하는 모든 사람에게 설문조사를 나눠줍니다. 당연히 이는 데이터 세트를 수집하는 합리적인 방법처럼 들릴 수 있지만, 이러한 형태의 데이터 수집은 다음과 같은 선택 편향의 형태를 취할 수 있습니다.

  • 노출 편향: 영화를 보기로 선택한 모집단에서 샘플링하면 모델의 예측이 영화에 대한 관심 수준을 아직 표현하지 않은 사람들에게 일반화되지 않을 수 있습니다.
  • 샘플링 편향: 의도된 모집단 (영화에 나오는 모든 사람)의 무작위 샘플링 대신 앞줄에 있는 사람만 샘플링했습니다. 앞줄에 앉은 사람이 다른 행에 있는 사람보다 영화에 더 관심이 있을 수 있습니다.
  • 무응답 편향: 일반적으로 강한 견해가 있는 사람들은 가벼운 의견보다 선택적인 설문조사에 더 자주 반응하는 경향이 있습니다. 영화 설문조사는 선택사항이므로 응답은 일반적인 (종 모양) 분포보다 이중 모달 분포를 형성할 가능성이 높습니다.

민감한 속성

#fairness
법적, 윤리적, 사회적 또는 개인적 이유로 특별히 고려될 수 있는 인간의 속성입니다.

U

알지 못함 (민감한 속성)

#fairness

민감한 속성이 있지만 학습 데이터에는 포함되지 않는 상황. 민감한 속성은 데이터의 다른 속성과 상관관계가 있는 경우가 많기 때문에 민감한 속성을 인식하지 못한 상태로 학습된 모델은 이러한 속성과 관련하여 여전히 이질적인 영향을 미치거나 다른 공정성 제약조건을 위반할 수 있습니다.