요약

이 과정에서는 데이터 세트 품질부터 사고, 시각화, 통계 분석에 이르기까지 많은 일반적인 데이터 함정을 살펴봤습니다.

ML 실무자는 다음 질문을 해야 합니다.

  • 데이터 세트의 특성과 데이터가 수집된 조건을 얼마나 잘 이해하고 있나요?
  • 데이터에 어떤 품질 또는 편향 문제가 있나요? 혼동 요인이 있나요?
  • 이러한 특정 데이터 세트를 사용하면 어떤 잠재적인 다운스트림 문제가 발생할 수 있나요?
  • 예측 또는 분류를 수행하는 모델을 학습시킬 때 모델이 학습되는 데이터 세트에 모든 관련 변수가 포함되어 있나요?

결과가 무엇이든 ML 실무자는 항상 확증 편향을 확인하고, 직관 및 상식과 비교하여 결과를 확인하고, 데이터가 직관 및 상식과 충돌하는 경우 조사해야 합니다.

추가 자료

카이로, 알베르토. How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.

Huff, Darrell. How to Lie with Statistics. NY: W.W. Norton, 1954.

Monmonier, Mark. 지도와 함께 거짓말하는 방법,3판. 시카고: 시카고 대학교 출판부, 2018.

Jones, Ben. 데이터 문제 방지 Hoboken, NJ: Wiley, 2020.

Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. NY: W.W. Norton, 2013