데이터 세트, 일반화, 과적합

를 통해 개인정보처리방침을 정의할 수 있습니다.

소개

이 모듈은 유도 질문으로 시작합니다. 다음 답변 중 하나를 선택하세요.

머신러닝 프로젝트에서 다음 영역 중 하나를 개선하는 데 우선순위를 두어야 한다면 가장 큰 영향을 미치는 영역은 무엇인가요?
데이터 세트의 품질 개선
데이터가 모든 것을 우선합니다. 데이터 세트의 품질과 크기는 무엇보다도 사용하는 좋은 방법입니다.
모델 학습에 더 영리한 손실 함수 적용
물론 더 나은 손실 함수를 사용하면 모델을 더 빠르게 학습시킬 수 있지만, 이 목록의 다른 항목에 비하면 훨씬 뒤떨어집니다.

그리고 다음은 훨씬 더 중요한 질문입니다.

머신러닝 프로젝트에서 데이터 준비 및 변환에 일반적으로 얼마나 걸리나요?
프로젝트 시간의 절반 이상
예, ML 실무자가 대부분의 시간을 소비함 데이터 세트를 구성하고 특성 추출을 수행하는 방법을 알아봅니다
프로젝트 시간의 절반 미만
더 많은 계획을 세워 보세요. 일반적으로 머신러닝 작업 시간의 80% 는 데이터 세트를 구성하고 데이터를 변환하는 데 사용됩니다.

이 모듈에서는 머신러닝 데이터 세트의 특성과 모델을 학습하고 평가할 때 고품질 결과를 얻기 위해 데이터를 준비하는 방법을 자세히 알아봅니다.