공정성: 편향 식별

모델에서 데이터를 가장 효과적으로 표현할 방법을 찾기 위해 데이터를 살펴볼 때 공정성 문제를 염두에 두고 편향의 원인이 될 수 있는 요소를 사전에 점검하는 것이 중요합니다.

어디에 편향이 숨어있을까요? 데이터 세트에서 주의해야 할 3가지 위험 신호는 다음과 같습니다.

누락된 특성 값

데이터 세트에 다수의 예시에 대한 값이 누락된 특성이 하나 이상 있다면 데이터 세트의 특정 주요 특성이 제대로 표현되지 않았음을 나타내는 지표일 수 있습니다.

예를 들어 아래 표에는 캘리포니아 DataFrame 데이터 세트에 저장되고 DataFrame.describe를 통해 생성된 캘리포니아 주택 데이터 세트의 일부 기능에 관한 주요 통계 요약이 나와 있습니다. 모든 특성의 count이 17, 000이며 이는 누락된 값이 없음을 나타냅니다.

longitude 위도 total_rooms population households median_income median_house_value
개수 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0 17,000.0
평균 -119.6 35.6세 2,643.7 1,429.6 501.2 3.9 207.3명
표준 2.0 2.1 2,179.9 1,147.9 384.5 1.9 116.0
min -124.3명 32.5명 2.0 3.0 1.0 0.5 15.0
25% -121.8 33.9세 1,462.0 790.000 282.0 2.6 119.4명
50% -118.5 34.2개 2,127.0 1,167.0 409.0 3.5 180.4명
75% -118.0 37.7 3,151.2 1,721.0 605.2 4.8 265.0
max -114.3명 42,000 37,937.0 35,682.0 6,082.0 15.0 500.0

대신 세 개의 특성 (population, households, median_income)에 3000 개수만 있다고 가정해 보겠습니다. 즉, 각 특성에 14,000개의 누락된 값이 있다고 가정해 보겠습니다.

longitude 위도 total_rooms population households median_income median_house_value
개수 17,000.0 17,000.0 17,000.0 3,000.0 3,000.0 3,000.0 17,000.0
평균 -119.6 35.6세 2,643.7 1,429.6 501.2 3.9 207.3명
표준 2.0 2.1 2,179.9 1,147.9 384.5 1.9 116.0
min -124.3명 32.5명 2.0 3.0 1.0 0.5 15.0
25% -121.8 33.9세 1,462.0 790.000 282.0 2.6 119.4명
50% -118.5 34.2개 2,127.0 1,167.0 409.0 3.5 180.4명
75% -118.0 37.7 3,151.2 1,721.0 605.2 4.8 265.0
max -114.3명 42,000 37,937.0 35,682.0 6,082.0 15.0 500.0

이렇게 14,000개의 누락된 값은 가계 소득의 중앙값을 주택 가격 중앙값과 정확히 연관시키기 훨씬 더 어렵게 만듭니다. 이 데이터로 모델을 학습시키기 전에 누락된 값의 원인을 조사하여 소득 및 인구 데이터 누락의 원인이 될 수 있는 잠재 편향이 없는지 확인하는 것이 좋습니다.

예상치 못한 특성값

데이터를 살펴볼 때는 특별히 특이하거나 이례적인 특성 값이 포함된 예를 찾아야 합니다. 이러한 예기치 않은 특성 값은 데이터 수집 중에 발생한 문제 또는 편향을 일으킬 수 있는 기타 부정확한 결과를 나타낼 수 있습니다.

예를 들어 캘리포니아 주택 데이터 세트에서 발췌한 다음 예를 살펴보겠습니다.

longitude 위도 total_rooms population households median_income median_house_value
1 -121.7명 38.0 7,105.0 3,523.0 1,088.0 5.0 0.2
2 -122.4명 37.8 2,479.0 1,816.0 496.0 3.1 0.3
3 -122.0 37일 2,813.0 1,337.0 477.0 3.7 0.3
4 -103.5 43.8 2,212.0 803.0 144,000 5.3 0.2
5 -117.1 32.8 2,963.0 1162.0 556.0 3.6 0.2
6 -118.0 33.7명 3,396.0 1,542.0 472.0 7.4 0.4

예상치 못한 특성 값을 찾아낼 수 있나요?

데이터 편향

특정 그룹이나 특성이 실제보다 과소 또는 과대 표현되는 모든 종류의 데이터 편향으로 인해 모델에 편향이 생길 수 있습니다.

검증 프로그래밍 실습을 완료했다면 학습 세트와 검증세트로 나누기 전에 캘리포니아 주택 데이터 세트를 무작위로 섞지 않으면 확연한 데이터 편향이 발생한 것을 기억하실 겁니다. 그림 1은 캘리포니아 북서부 지역만 나타내는 전체 데이터 세트에서 가져온 데이터의 하위 집합을 시각화합니다.

캘리포니아주 지도 위에 캘리포니아 주택 데이터 세트의 데이터가 오버레이되어 있습니다.
          각 점은 주택 단지를 나타냅니다. 점들은 모두 캘리포니아 북서부에 모여있고, 캘리포니아 남부는 점이 없는데, 이는 데이터의 지리적 편향을 보여줍니다.

그림 1. 캘리포니아주 지도 위에 캘리포니아 주택 데이터 세트의 데이터가 오버레이되어 있습니다. 각 점은 주택 단지를 나타내며, 파란색은 빨간색이고, 빨간색은 주택 가격 중앙값이 낮은 곳부터 높은 곳까지입니다.

이 대표적이지 않은 샘플을 사용하여 미국 캘리포니아주의 주택 가격을 예측하도록 모델을 학습시킨다면 캘리포니아 남부의 주택 데이터가 부족한 것이 문제가 될 수 있습니다. 모델에 인코딩된 지리적 편향은 표현되지 않은 커뮤니티의 주택 구매자에게 부정적인 영향을 미칠 수 있습니다.