일반화: 과적합의 위험

이 모듈에서는 일반화에 초점을 맞추고 세 개의 그림을 활용하여 일반화 개념에 대해 알아봅니다. 그림의 각 점은 숲에서 나무의 위치를 나타낸다고 가정합니다. 두 색상의 의미는 다음과 같습니다.

  • 파란색 점은 병든 나무를 나타냅니다.
  • 주황색 점은 건강한 나무를 나타냅니다.

이를 염두에 두고 그림 1을 살펴보세요.

이 그림에는 점이 약 50개 포함되며 그중 반은 파란색이고 나머지 반은 주황색입니다. 주황색 점은 주로 3사분면에 있지만 몇 개는 다른 사분면에 포함됩니다. 파란색 점은 주로 1사분면에 있지만 몇 개는 다른 사분면에 있습니다.

그림 1. 병든(파란색) 나무와 건강한(주황색) 나무

그다음에 병든 나무나 건강한 나무를 예측하는 데 적합한 모델을 생각할 수 있으세요? 잠시 시간을 내어 머릿속으로 파란색 나무와 주황색 나무를 나누는 호를 그리거나 주황색 나무 또는 파란색 나무의 배치로 분류하세요. 그런 다음 그림 2를 보고 특정 머신러닝 모델에서 병든 나무와 건강한 나무를 구분하는 방법을 확인하세요. 이 모델에서는 손실이 매우 적게 발생합니다.

 

손실은 적지만 잘못된 모델인가요?

그림 3은 모델에 새 데이터를 추가할 때 어떤 일이 발생했는지 보여줍니다. 모델이 새 데이터에 적합하지 않은 것으로 확인되었습니다. 모델이 새 데이터 대부분을 잘못 분류했습니다.

그림 2와 같은 그림. 단 약 100개의 점이 추가됨. 많은 새 점이 예측 모델을 크게 벗어납니다.

그림 3. 새 데이터를 잘못 예측한 모델

그림 2와 3에 표시된 모델은 학습한 데이터의 특성에 과적합합니다. 과적합 모델은 학습하는 동안 손실이 적지만 새 데이터를 잘 예측하지 못합니다. 현재 샘플에 적합한 모델에서 새 데이터를 잘 예측할 것이라고 신뢰할 수 있나요? 나중에 알게 되겠지만 필요 이상으로 복잡한 모델을 만들면 과적합이 발생합니다. 머신러닝의 근본적인 과제는 데이터 적합도를 유지하는 동시에 최대한 단순화하는 것입니다.

머신러닝의 목표는 숨겨진 실제 확률 분포에서 추출되는 새 데이터를 잘 예측하는 것입니다. 하지만 모델에서는 모든 데이터를 볼 수 없으며 학습 데이터 세트에서만 샘플을 추출할 수 있습니다. 현재 예에 적합한 모델에서 처음 보는 예도 효과적으로 예측할 것이라고 신뢰할 수 있나요?

14세기의 수도사이자 철학자인 William of Occam은 단순성을 좋아했습니다. 그는 과학자는 복잡한 것보다 간단한 공식이나 이론을 선택해야 한다고 생각했습니다. Occam의 면도날 법칙을 머신러닝 용어로 표현하면 다음과 같습니다.

ML 모델이 덜 복잡할수록 샘플의 특성 때문이 아니어도 좋은 경험적 결과를 얻을 가능성이 높습니다.

이제 Occam의 면도날 법칙은 통계적 학습 이론컴퓨터 학습 이론 분야에서 공식화되었습니다. 이들 분야에서는 다음과 같은 요인을 기반으로 새 데이터에 맞게 모델이 일반화되는 정도를 통계적으로 설명하는 일반화 한계를 개발했습니다.

  • 모델의 복잡성
  • 학습 데이터에 대한 모델의 성능

이론적 분석은 이상적인 가정하에 형식적인 결과를 보장하지만 실제로 적용하기 어려울 수 있습니다. 머신러닝 단기집중과정에서는 대신 경험적 평가에 초점을 맞춰 새 데이터에 맞게 모델이 일반화되는 정도를 판단합니다.

머신러닝의 목표는 이전에 보지 못한 새 데이터를 잘 예측하는 것입니다. 하지만 데이터 세트에서 모델을 만드는 경우 어떻게 이전에 보지 못한 데이터를 얻을 수 있나요? 한 가지 방법은 데이터 세트를 다음 두 하위 세트로 나누는 것입니다.

  • 학습 세트 - 모델을 학습시키기 위한 하위 세트
  • 테스트 세트 - 모델을 테스트하기 위한 하위 세트

테스트 세트에서 성능이 좋으면 일반적으로 다음과 같은 경우 새 데이터에서도 성능이 좋습니다.

  • 테스트 세트가 충분히 큽니다.
  • 같은 테스트 세트를 반복 사용하지 않습니다.

ML 세부사항

일반화에서는 기본적으로 다음 세 가지 사항을 가정합니다.

  • 분포에서 독립적이고 동일하게(i.i.d.) 임의로 예를 추출합니다. 즉, 예가 서로 영향을 미치지 않습니다. (대체 설명: i.i.d.는 변수의 임의성을 가리키는 한 가지 방법입니다.)
  • 분포가 정상성을 보입니다. 즉 데이터 세트 내에서 분포가 달라지지 않습니다.
  • 같은 분포를 따르는 부분에서 예를 추출합니다.

실제로는 이러한 가정을 위반하는 경우가 있습니다. 예:

  • 표시할 광고를 선택하는 모델을 고려하는 경우. 모델이 선택된 광고, 부분적으로 사용자가 이전에 본 광고를 기반으로 하는 경우 i.i.d. 가정을 위반하게 됩니다.
  • 1년 동안의 소매 판매 정보가 포함된 데이터 세트를 고려하는 경우. 사용자의 구매 패턴이 계절에 따라 변경되어 정상성을 위반하게 됩니다.

앞의 세 가지 가정을 위반한 것이 확인되면 측정항목에 세심하게 주의를 기울여야 합니다.