모델 학습 및 평가를 위해 데이터를 준비할 때는 공정성 문제를 염두에 두고 잠재적인 편향의 원인을 감사하여 모델을 프로덕션에 출시하기 전에 그 영향을 사전에 완화할 수 있도록 하는 것이 중요합니다.
편향이 발생할 수 있는 위치는 어디인가요? 다음은 데이터 세트에서 주의해야 할 위험 신호입니다.
누락된 특성 값
데이터 세트의 다수의 예에서 값이 누락된 특성이 하나 이상 있는 경우
데이터 세트의 주요 특성 중 일부가 제대로 표현되지 않았음을 나타내는 지표일 수 있습니다.
연습문제: 이해도 확인
품종, 연령, 체중, 기질, 매일 털이 빠지는 양 등 다양한 특징을 기반으로 구조견의 입양 가능성을 예측하는 모델을 학습하고 있습니다. 목표는 모델이 신체적 또는 행동적 특성과 관계없이 모든 유형의 개에서 동일하게 우수한 성능을 발휘하도록 하는 것입니다.
학습 세트의 5,000개 예시 중 1,500개에 기질 값이 누락된 것으로 확인됩니다. 다음 중 조사해야 할 잠재적 편향의 원인은 무엇인가요?
특정 품종의 경우 기질 데이터가 누락될 가능성이 더 큽니다.
기질 데이터의 가용성이 개 품종과 상관관계가 있는 경우 특정 견종의 입양 가능성 예측의 정확도가 떨어질 수 있습니다.
12개월 미만의 강아지에게는 기질 데이터가 누락될 가능성이 더 큽니다.
기질 데이터의 가용성이 연령과 관련이 있는 경우 강아지와 성견의 입양 가능성 예측이 달라질 수 있습니다.
대도시에서 구조된 모든 개의 기질 데이터가 누락되었습니다.
언뜻 보기에는 누락된 데이터가 품종, 나이, 체중 등과 관계없이 대도시의 모든 개에게 동등하게 영향을 미치기 때문에 이것이 잠재적인 편향의 원인인 것처럼 보이지 않을 수 있습니다. 하지만 강아지의 위치가 이러한 물리적 특성의 대용물로 효과적으로 기능할 수 있다는 점을 고려해야 합니다. 예를 들어 대도시의 개가 농촌 지역의 개보다 훨씬 작을 가능성이 높으면 소형견이나 특정 소형견 품종의 입양 가능성 예측이 덜 정확할 수 있습니다.
데이터 세트에서 기질 데이터가 무작위로 누락되어 있습니다.
기질 데이터가 실제로 무작위로 누락되는 경우 편향의 원인이 될 수 없습니다. 하지만 기질 데이터가 무작위로 누락된 것처럼 보일 수 있지만 추가 조사를 통해 불일치에 대한 설명을 찾을 수 있습니다. 따라서 데이터 공백이 무작위라고 가정하는 대신 다른 가능성을 배제하기 위해 철저히 검토하는 것이 중요합니다.
예기치 않은 특성 값
데이터를 탐색할 때는 특히 비정상적이거나 특이한 특성 값이 포함된 예시도 찾아야 합니다. 이러한 예기치 않은 기능 값은 데이터 수집 중에 발생한 문제 또는 편향을 일으킬 수 있는 기타 부정확성을 나타낼 수 있습니다.
연습문제: 이해도 확인
구조견 입양 가능성 모델을 학습시키기 위한 다음 가설적 예시 집합을 검토하세요.
품종
연령 (세)
체중 (lbs)
성격
shedding_level
토이 푸들
2
12
흥분성
낮음
골든 리트리버
7
65
차분함
high
래브라도 리트리버
35
73
차분함
high
프렌치 불도그
0.5
11
차분함
중간
알 수 없는 혼합 품종
4
45
흥분성
high
바셋하운드
9
48
차분함
중간
지형지물 데이터에 문제가 있는지 확인할 수 있나요?
답변을 보려면 여기를 클릭하세요.
품종
연령 (세)
체중 (lbs)
성격
shedding_level
토이 푸들
2
12
흥분성
낮음
골든 리트리버
7
65
차분함
high
래브라도 리트리버
35
73
차분함
high
프렌치 불도그
0.5
11
차분함
중간
알 수 없는 혼합 품종
4
45
흥분성
high
바셋하운드
9
48
차분함
중간
기네스 세계 기록에서 연령 인증을 받은 가장 오래된 개는
호주 캐틀 독인 Bluey로, 29세 5개월까지 살았습니다. 따라서 래브라도 리트리버가 실제로 35살이라는 것은 믿기 어렵고, 개 나이가 부정확하게 계산 또는 기록되었을 가능성이 더 큽니다 (실제로 3.5살일 수 있음). 이 오류는 데이터 세트의 연령 데이터에 추가 조사가 필요한 광범위한 정확도 문제가 있음을 나타낼 수도 있습니다.
데이터 편향
특정 그룹 또는 특성이 실생활에 비해 과소 또는 과대 대표될 수 있는 모든 종류의 데이터 편향은 모델에 편향을 초래할 수 있습니다.
모델 실적을 감사할 때는 집계된 결과를 살펴보는 것뿐만 아니라 하위 그룹별로 결과를 분류하는 것이 중요합니다. 예를 들어 구조견 입양 가능성 모델의 경우 공정성을 보장하려면 전반적인 정확성만 살펴서는 충분하지 않습니다. 또한 각 개의 품종, 연령대, 크기 그룹에서 모델이 동일하게 우수한 성능을 발휘하는지 확인하기 위해 하위 그룹별로 성능을 감사해야 합니다.
이 모듈의 후반부인 편향 평가에서 하위 그룹별로 모델을 평가하는 다양한 방법을 자세히 살펴봅니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2024-11-10(UTC)"],[[["Training data should represent real-world prevalence to avoid bias in machine learning models."],["Missing or unexpected feature values in the dataset can be indicative of potential sources of bias."],["Data skew, where certain groups are under- or over-represented, can introduce bias and should be addressed."],["Evaluating model performance by subgroup ensures fairness and equal performance across different characteristics."],["Auditing for bias requires a thorough review of data and model outcomes to mitigate potential negative impacts."]]],[]]