의견 보내기
데이터 세트, 일반화, 과적합
컬렉션을 사용해 정리하기
내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.
학습 목표
데이터 및 데이터 세트의 네 가지 특성을 파악합니다.
데이터 불안정의 원인을 네 가지 이상 식별하세요.
누락된 데이터를 삭제할 시점과 대체할 시점을 결정합니다.
직접 라벨과 파생 라벨을 구분합니다.
인간으로 평가한 콘텐츠의 품질을 개선할 수 있는 두 가지 방법
라벨을 지정합니다
데이터 세트를 학습 세트, 검증 세트,
테스트 세트, 데이터 분할에서 잠재적인 문제를 식별할 수 있습니다.
과적합을 설명하고 가능한 세 가지 원인을 식별합니다.
정규화의 개념을 설명. 특히
있습니다.
<ph type="x-smartling-placeholder"></ph>
편향과 분산 비교(이상치에 대한 적응…)
람다 (정규화)를 포함한 L2 정규화
요율)
조기 중단
다양한 종류의 손실 곡선 해석 수렴 탐지 및
손실 곡선의 과적합입니다.
를 통해 개인정보처리방침을 정의할 수 있습니다.
를 통해 개인정보처리방침을 정의할 수 있습니다.
기본 요건:
이 모듈에서는
확인할 수 있습니다
소개
이 모듈은 유도 질문으로 시작합니다.
다음 답변 중 하나를 선택하세요.
머신러닝 프로젝트에서 다음 영역 중 하나를 개선하는 데 우선순위를 두어야 한다면 가장 큰 영향을 미치는 영역은 무엇인가요?
데이터 세트의 품질 개선
데이터가 모든 것을 우선합니다.
데이터 세트의 품질과 크기는 무엇보다도
사용하는 좋은 방법입니다.
모델 학습에 더 영리한 손실 함수 적용
물론 더 나은 손실 함수를 사용하면 모델을 더 빠르게 학습시킬 수 있지만, 이 목록의 다른 항목에 비하면 훨씬 뒤떨어집니다.
그리고 다음은 훨씬 더 중요한 질문입니다.
머신러닝 프로젝트에서 데이터 준비 및 변환에 일반적으로 얼마나 걸리나요?
프로젝트 시간의 절반 이상
예, ML 실무자가 대부분의 시간을 소비함
데이터 세트를 구성하고 특성 추출을 수행하는
방법을 알아봅니다
프로젝트 시간의 절반 미만
더 많은 계획을 세워 보세요. 일반적으로 머신러닝 작업 시간의 80% 는
데이터 세트를 구성하고 데이터를 변환하는 데 사용됩니다.
이 모듈에서는 머신러닝 데이터 세트의 특성과 모델을 학습하고 평가할 때 고품질 결과를 얻기 위해 데이터를 준비하는 방법을 자세히 알아봅니다.
의견 보내기
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스 에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스 에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책 을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
최종 업데이트: 2025-07-27(UTC)
의견을 전달하고 싶나요?
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-07-27(UTC)"],[],[]]