데이터 세트의 크기 및 품질

'쓰레기 버리기, 쓰레기 버리기'

앞의 격은 머신러닝에 적용됩니다. 결국 모델의 성능은 데이터만큼 우수합니다. 하지만 데이터 세트의 품질을 어떻게 측정하고 개선할 수 있을까요? 유용한 결과를 얻으려면 얼마나 많은 데이터가 필요할까요? 답변은 해결하는 문제의 유형에 따라 다릅니다.

데이터 세트 크기

대략적으로 모델은 학습 가능한 매개변수보다 적어도 한 자리 더 많은 데이터로 학습해야 합니다. 대규모 데이터 세트의 간단한 모델은 일반적으로 작은 데이터 세트의 고급 모델을 이깁니다. Google은 대규모 데이터 세트에서 간단한 선형 회귀 모델을 학습시켜 큰 성공을 거두었습니다.

다음 중 데이터의 '많은'은 어떻게 집계되나요? 프로젝트에 따라 다릅니다. 다음 데이터 세트의 상대적 크기를 고려하세요.

데이터 세트 크기 (예시 수)
아이리스 꽃 데이터 세트 150 (총 조합)
MovieLens (2,000만 데이터 세트) 20,000,263 (총 조합)
Google Gmail SmartReply 238,000,000 (학습 세트)
Google 도서 Ngram 468,000,000,000 (총 조합)
Google 번역으로 번역하기

여기서 볼 수 있듯이 데이터 세트는 다양한 크기로 제공됩니다.

데이터 세트의 품질

잘못된 데이터일 때는 많은 데이터를 사용하지 않아도 됩니다. 품질이 중요하죠. 그런데 어떤 것이 '품질'로 간주되나요? 흐릿한 용어입니다. 경험적 접근 방법을 취하고 최상의 결과를 생성하는 옵션을 선택해 보세요. 이러한 사고방식을 토대로 고품질 데이터 세트는 관심 있는 비즈니스 문제를 해결하는 데 도움이 되는 데이터 세트입니다. 즉, 데이터가 의도된 작업을 수행하면 양호해집니다.

그러나 데이터를 수집하는 동안 품질에 대한 더 명확한 정의를 보유하면 유용합니다. 품질의 특정 측면은 성능이 더 우수한 모델에 상응하는 경향이 있습니다.

  • 안정성
  • 특성 표현
  • 편향 최소화

안정성

안정성은 데이터를 신뢰할 수 있는 정도를 나타냅니다. 신뢰할 수 있는 데이터 세트로 학습된 모델은 신뢰할 수 없는 데이터로 학습된 모델보다 유용한 예측을 얻을 가능성이 높습니다. 안정성을 측정할 때 다음 사항을 확인해야 합니다.

  • 라벨 오류는 얼마나 일반적인가요? 예를 들어 사람이 데이터에 라벨을 지정했다면 사람이 실수하는 경우가 있습니다.
  • 특성에 노이즈가 있나요? 예를 들어 GPS 측정값의 변동이 심합니다. 약간의 노이즈는 괜찮습니다. 데이터 세트를 모든 노이즈로 영구 삭제하지는 않습니다. 더 많은 예시를 수집할 수도 있습니다.
  • 문제가 문제에 적합한 방식으로 필터링되었나요? 예를 들어 데이터 세트에 봇의 검색어가 포함되어야 하나요? 스팸 감지 시스템을 구축한다면 답은 '예'이지만, 인간의 검색결과를 개선하려고 하면 '아니요'일 수 있습니다.

데이터를 신뢰할 수 없는 이유 머신러닝 단기집중과정에서 다음 중 하나 이상으로 인해 데이터 세트의 여러 예시를 신뢰할 수 없다는 사실을 떠올려 보세요.

  • 생략된 값입니다. 예를 들어 한 사용자가 주택의 연령 값을 입력하지 않았습니다.
  • 중복 예시 예를 들어 서버가 동일한 로그를 실수로 두 번 업로드했습니다.
  • 라벨이 잘못되었습니다. 예를 들어 어떤 사람이 참나무 나무 사진을 단풍나무로 잘못 라벨을 지정했습니다.
  • 특성 값이 잘못되었습니다. 예를 들어 사용자가 숫자를 더 입력했거나 체온계가 햇빛에 노출되지 않았습니다.

Google 번역은 안정성을 중시하면서 데이터에서 최상의 '하위 집합'을 선택했습니다. 즉, 일부 데이터는 다른 부분보다 품질이 더 우수했습니다.

특성 표현

머신러닝 단기집중과정에서 표현한 바는 유용한 특성에 대한 데이터 매핑입니다. 다음 질문을 고려해 보세요.

  • 모델에 데이터가 어떻게 표시되나요?
  • 숫자 값을 정규화해야 하나요?
  • 이상점을 어떻게 처리해야 하나요?

이 과정의 데이터 변환 섹션에서는 특성 표현에 중점을 둡니다.

학습과 예측 비교

오프라인에서 좋은 결과를 얻을 수 있다고 가정하겠습니다. 실시간 실험에서는 결과가 유지되지 않습니다. 어떤 문제가 발생할 수 있나요?

이 문제는 학습/서빙 편향을 나타냅니다. 즉, 학습 시간과 서빙 시간의 측정항목에 대해 서로 다른 결과가 계산됩니다. 편향의 원인은 미묘할 수 있지만 결과에 치명적인 영향을 줄 수 있습니다. 예측 시 모델에서 사용할 수 있는 데이터를 항상 고려하세요. 학습 중에는 서빙할 수 있는 특성만 사용하고 학습 세트가 서빙 트래픽을 나타내도록 해야 합니다.