테스트 세트와 학습 세트를 사용해 모델 개발을 반복하는 프로세스를 살펴보았습니다. 반복할 때마다 학습 데이터를 학습하고 테스트 데이터를 평가하여 테스트 데이터에 대한 평가 결과를 사용하여 학습률 및 특성과 같은 다양한 모델 초매개변수의 선택 및 변경사항을 안내합니다. 이 접근 방식에 문제가 있나요? 정답을 하나만 선택하세요.
괜찮습니다. 학습 데이터를 학습시키고 별도로 보류된 테스트 데이터를 평가하는 것입니다.
사실 여기에는 미묘한 문제가 있습니다. 이 양식을 여러 번 반복했다면 어떤 일이 일어날지 생각해 보세요.
이 절차를 여러 번 진행하면 특정 테스트 세트의 특이성에 암시적으로 적합할 수 있습니다.
실제로 그렇습니다. 특정 테스트 세트에 대해 더 자주 평가할수록 해당 테스트 세트에 암시적으로 과적합될 위험이 커집니다.
이제 더 나은 프로토콜을 살펴보겠습니다.
이는 비효율적입니다. 단순히 기본 초매개변수 집합을 선택하고 그대로 사용하여 리소스를 저장해야 합니다.
이러한 종류의 반복은 비용이 많이 발생하지만 모델 개발에서 중요한 부분입니다. 초매개변수 설정은 모델 품질을 크게 향상할 수 있으며, 가능한 한 최상의 품질을 얻을 수 있도록 항상 시간과 컴퓨팅 리소스에 예산을 투자해야 합니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2024-08-22(UTC)"],[[["Using a single test set for numerous model iterations can lead to implicit overfitting to that specific test set, diminishing the model's ability to generalize to new data."],["While iterative model development using training and test sets is computationally expensive, it's crucial for optimizing hyperparameters and achieving high model quality."]]],[]]