데이터 분할

뉴스 기사의 예에서 알 수 있듯이 순수한 무작위 분할이 항상 올바른 방법은 아닙니다.

온라인 시스템에서 자주 사용하는 기법은 시간별로 데이터를 분할하여 다음과 같이 하는 것입니다.

  • 30일 동안의 데이터를 수집합니다.
  • 1~29일 차의 데이터로 학습합니다.
  • 30일차의 데이터를 평가합니다.

온라인 시스템의 경우 학습 데이터가 서빙 데이터보다 오래되었으므로 이 기법을 사용하면 검증 세트에 학습과 서빙 간 지연 시간이 동일하게 반영됩니다. 그러나 시간 기반 분할은 수천만 개의 예시가 있는 데이터 세트와 같이 매우 큰 데이터 세트에서 가장 잘 작동합니다. 프로젝트의 데이터가 적으면 학습, 검증, 테스트 사이에 분포가 상당히 달라집니다.

또한 머신러닝 단기집중과정에 설명된 머신러닝 문헌 프로젝트의 데이터 분할 결함으로는 데이터는 작성자 3명 중 한 명이 쓴 결과 3개의 주요 그룹으로 분류되었습니다. 팀이 무작위 분할을 적용했으므로 각 그룹의 데이터가 학습, 평가, 테스트 세트에 존재하여 모델이 예측 시 반드시 필요하지는 않은 정보로부터 학습할 수 있었습니다. 이 문제는 시계열 데이터 또는 다른 기준으로 클러스터링된 데이터를 그룹화할 때마다 발생할 수 있습니다. 도메인 지식으로 데이터를 분할하는 방법을 알 수 있습니다.

자세한 내용은 머신러닝 단기집중과정의 다음 모듈을 참고하세요.