이 단원에서는 원시 데이터를 적절한 특성 벡터에 매핑하는 방법을 살펴봤습니다.
좋은 수치 특성은 이 섹션에 설명된 특성을 공유합니다.
명확한 이름 지정
프로젝트의 모든 구성원에게 각 특성은 명확하고 분명한 의미를 가져야 합니다. 예를 들어 다음 지형지물 값의 의미는 혼란스럽습니다.
권장하지 않음
house_age: 851472000
반면 다음과 같은 지형지물 이름과 값은 훨씬 더 명확합니다.
권장
house_age_years: 27
학습 전에 확인 또는 테스트됨
이 모듈에서는 외부값에 많은 시간을 할애했지만 이 주제는 중요하므로 마지막으로 한 번 더 언급해야 합니다. 엔지니어링 측면의 실수와 관계없이 잘못된 데이터이므로 값이 불명확해지는 경우도 있습니다. 예를 들어 다음 user_age_in_years는 적절한 값을 확인하지 않은 소스에서 비롯된 것입니다.
권장하지 않음
user_age_in_years: 224
하지만 24세인 경우 가능합니다.
권장
user_age_in_years: 24
데이터를 확인하세요.
합리적
'매직 값'은 연속적인 지형지물에서 의도적으로 불연속성을 나타냅니다. 예를 들어 watch_time_in_seconds라는 연속 특성이 0과 30 사이의 부동 소수점 값을 보유할 수 있지만 매직 값 -1로 측정의 부재를 나타낸다고 가정해 보겠습니다.
권장하지 않음
watch_time_in_seconds: -1
watch_time_in_seconds가 -1이면 모델은 영화를 거꾸로 시청하는 것이 무엇을 의미하는지 알아내려고 시도합니다. 그 결과 생성된 모델은 적절한 예측을 하지 못할 가능성이 큽니다.
더 나은 방법은 watch_time_in_seconds 값이 제공되었는지 여부를 나타내는 별도의 불리언 지형지물을 만드는 것입니다. 예를 들면 다음과 같습니다.
이는 누락된 값이 있는 연속 데이터 세트를 처리하는 방법입니다. 이제 값이 유한한 값 집합에 속해야 하는 product_category과 같은 불연속 숫자 특성을 고려해 보겠습니다. 이 경우 값이 누락되면 유한한 세트의 새 값을 사용하여 누락된 값을 나타냅니다. 불연속 특성을 사용하면 모델은 누락된 특성의 원래 가중치를 포함하여 각 값에 대해 다른 가중치를 학습합니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-05-12(UTC)"],[[["Good feature vectors require features that are clearly named and have obvious meanings to anyone on the project."],["Data should be checked and tested for bad data or outliers like inappropriate values before being used for training."],["Features should be sensible, avoiding \"magic values\" that create discontinuities; instead, use separate boolean features or new discrete values to indicate missing data."],["Continuous features should not have magic values representing the absence of measurement, but rather use separate Boolean features or discrete values."],["Discrete numerical features with missing values should be assigned a new value within the finite set, enabling the model to learn weights for each value including missing features."]]],[]]