데이터 세트, 일반화, 과적합

학습 목표

데이터 및 데이터 세트의 네 가지 특성을 파악합니다.
데이터 불안정의 원인을 네 가지 이상 식별하세요.
누락된 데이터를 삭제할 시점과 대체할 시점을 결정합니다.
직접 라벨과 파생 라벨을 구분합니다.
인간으로 평가한 콘텐츠의 품질을 개선할 수 있는 두 가지 방법 라벨을 지정합니다
데이터 세트를 학습 세트, 검증 세트, 테스트 세트, 데이터 분할에서 잠재적인 문제를 식별할 수 있습니다.
과적합을 설명하고 가능한 세 가지 원인을 식별합니다.
정규화의 개념을 설명. 특히 있습니다. <ph type="x-smartling-placeholder">
- 편향과 분산 비교(이상치에 대한 적응…)
- 람다 (정규화)를 포함한 L₂ 정규화 요율)
- 조기 중단
다양한 종류의 손실 곡선 해석 수렴 탐지 및 손실 곡선의 과적합입니다.

를 통해 개인정보처리방침을 정의할 수 있습니다.

소개

이 모듈은 유도 질문으로 시작합니다. 다음 답변 중 하나를 선택하세요.

머신러닝 프로젝트에서 다음 영역 중 하나를 개선하는 데 우선순위를 두어야 한다면 가장 큰 영향을 미치는 영역은 무엇인가요?

데이터 세트의 품질 개선

데이터가 모든 것을 우선합니다. 데이터 세트의 품질과 크기는 무엇보다도 사용하는 좋은 방법입니다.

모델 학습에 더 영리한 손실 함수 적용

물론 더 나은 손실 함수를 사용하면 모델을 더 빠르게 학습시킬 수 있지만, 이 목록의 다른 항목에 비하면 훨씬 뒤떨어집니다.

그리고 다음은 훨씬 더 중요한 질문입니다.

머신러닝 프로젝트에서 데이터 준비 및 변환에 일반적으로 얼마나 걸리나요?

프로젝트 시간의 절반 이상

예, ML 실무자가 대부분의 시간을 소비함 데이터 세트를 구성하고 특성 추출을 수행하는 방법을 알아봅니다

프로젝트 시간의 절반 미만

더 많은 계획을 세워 보세요. 일반적으로 머신러닝 작업 시간의 80% 는 데이터 세트를 구성하고 데이터를 변환하는 데 사용됩니다.

이 모듈에서는 머신러닝 데이터 세트의 특성과 모델을 학습하고 평가할 때 고품질 결과를 얻기 위해 데이터를 준비하는 방법을 자세히 알아봅니다.