수치 데이터: 좋은 숫자 특성의 특성

이 단원에서는 원시 데이터를 적절한 특성 벡터에 매핑하는 방법을 살펴봤습니다. 좋은 수치 특성은 이 섹션에 설명된 특성을 공유합니다.

명확한 이름 지정

프로젝트의 모든 구성원에게 각 특성은 명확하고 분명한 의미를 가져야 합니다. 예를 들어 다음 지형지물 값의 의미는 혼란스럽습니다.

권장하지 않음

house_age: 851472000

반면 다음과 같은 지형지물 이름과 값은 훨씬 더 명확합니다.

권장

house_age_years: 27

학습 전에 확인 또는 테스트됨

이 모듈에서는 외부값에 많은 시간을 할애했지만 이 주제는 중요하므로 마지막으로 한 번 더 언급해야 합니다. 엔지니어링 측면의 실수와 관계없이 잘못된 데이터이므로 값이 불명확해지는 경우도 있습니다. 예를 들어 다음 user_age_in_years는 적절한 값을 확인하지 않은 소스에서 비롯된 것입니다.

권장하지 않음

user_age_in_years: 224

하지만 24세인 경우 가능합니다.

권장

user_age_in_years: 24

데이터를 확인하세요.

합리적

'매직 값'은 연속적인 지형지물에서 의도적으로 불연속성을 나타냅니다. 예를 들어 watch_time_in_seconds라는 연속 특성이 0과 30 사이의 부동 소수점 값을 보유할 수 있지만 매직 값 -1로 측정의 부재를 나타낸다고 가정해 보겠습니다.

권장하지 않음

watch_time_in_seconds: -1

watch_time_in_seconds가 -1이면 모델은 영화를 거꾸로 시청하는 것이 무엇을 의미하는지 알아내려고 시도합니다. 그 결과 생성된 모델은 적절한 예측을 하지 못할 가능성이 큽니다.

더 나은 방법은 watch_time_in_seconds 값이 제공되었는지 여부를 나타내는 별도의 불리언 지형지물을 만드는 것입니다. 예를 들면 다음과 같습니다.

권장

watch_time_in_seconds: 4.82
is_watch_time_in_seconds_defined=True

watch_time_in_seconds: 0
is_watch_time_in_seconds_defined=False

이는 누락된 값이 있는 연속 데이터 세트를 처리하는 방법입니다. 이제 값이 유한한 값 집합에 속해야 하는 product_category과 같은 불연속 숫자 특성을 고려해 보겠습니다. 이 경우 값이 누락되면 유한한 세트의 새 값을 사용하여 누락된 값을 나타냅니다. 불연속 특성을 사용하면 모델은 누락된 특성의 원래 가중치를 포함하여 각 값에 대해 다른 가중치를 학습합니다.

예를 들어 집합에 맞는 가능한 값을 생각해 볼 수 있습니다.

{0: 'electronics', 1: 'books', 2: 'clothing', 3: 'missing_category'}.