랜덤 포레스트

옥스입니다.

옛 황소의 사진입니다.

그림 19. 소.

 

1906년 영국에서 가중치 심사 대회가 개최되었습니다. 787명의 참가자가 소의 무게를 추측했습니다. 개별 추측의 오류 중앙값은 37lb (오류 3.1%)였습니다. 하지만 추측의 전체 평균은 황소의 실제 무게 (1, 198lb)에서 9lb에 불과했고, 이는 0.7%의 오류였습니다.

개별 추측의 히스토그램으로 대부분의 추측이 소의 실제 체중에 모여 있습니다.

그림 20. 개별 체중 추측의 히스토그램

 

이 일화는 군중의 지혜를 보여줍니다. 특정 상황에서 집단 의견은 매우 적절한 판단을 제공합니다.

수학적으로, 군중의 지혜는 중심 한도 정리를 통해 모델링할 수 있습니다. 비공식적으로 이 값과 노이즈 값 N개의 추정값 간의 제곱 오차는 1/N 계수로 0인 경향이 있습니다. 하지만 변수가 독립적이지 않은 경우 편차는 더 커집니다.

머신러닝에서 앙상블은 예측이 평균을 맞추거나 어떤 방식으로든 집계되는 모델의 모음입니다. 앙상블 모델이 개별적으로 너무 나쁘지 않고 충분히 다르면 일반적으로 앙상블의 품질은 각 개별 모델의 품질보다 우수합니다. 앙상블에는 단일 모델보다 학습 및 추론 시간이 더 많이 필요합니다. 결국에는 단일 모델이 아닌 여러 모델에서 학습과 추론을 수행해야 합니다.

비공식적으로 앙상블이 가장 잘 작동하려면 개별 모델이 독립적이어야 합니다. 예를 들어 정확히 동일한 모델 중 10개로 구성된 앙상블 (즉, 전혀 독립적이지 않은 모델)은 개별 모델보다 낫지 않습니다. 반면 모델을 독립적으로 강제하면 모델의 성능이 저하될 수 있습니다. 효과적인 앙상블을 위해서는 모델 독립성과 하위 모델의 품질 사이에서 균형을 찾아야 합니다.