머신러닝 모델은 부동 소수점 값으로만 학습할 수 있습니다.
하지만 많은 데이터 세트 지형지물은 자연스럽게 부동 소수점 값이 아닙니다.
따라서 머신러닝에서 중요한 부분 중 하나는 부동 소수점 이외의 특성을 부동 소수점 표현으로 변환하는 것입니다.
예를 들어 street names가 지형지물이라고 가정해 보겠습니다. 대부분의 도로 이름은 'Broadway' 또는 'Vilakazi'와 같은 문자열입니다.
모델은 'Broadway'로 학습할 수 없으므로 'Broadway'를 부동 소수점 수로 변환해야 합니다. 범주형 데이터 모듈에서 이 방법을 설명합니다.
또한 대부분의 부동 소수점 지형지물을 변환해야 합니다.
정규화라고 하는 이 변환 프로세스는 부동 소수점 숫자를 제약된 범위로 변환하여 모델 학습을 개선합니다.
숫자 데이터 모듈에서 이를 수행하는 방법을 설명합니다.
데이터가 너무 많은 경우 샘플링
일부 조직은 풍부한 데이터를 보유하고 있습니다.
데이터 세트에 예시가 너무 많으면 학습할 예시의 하위 집합을 선택해야 합니다. 가능한 경우 모델의 예측과 가장 관련성이 높은 하위 집합을 선택합니다.
PII가 포함된 필터 예시
좋은 데이터 세트는 개인 식별 정보(PII)가 포함된 예시를 생략합니다. 이 정책은 개인 정보를 보호하는 데 도움이 되지만 모델에 영향을 줄 수 있습니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2024-11-14(UTC)"],[[["Machine learning models require all data, including features like street names, to be transformed into numerical (floating-point) representations for training."],["Normalization is crucial for optimizing model training by converting existing floating-point features to a specific range."],["When dealing with large datasets, selecting a relevant subset of data for training is essential for model performance."],["Protecting user privacy by excluding Personally Identifiable Information (PII) from datasets is a critical consideration."]]],[]]