데이터 수집: 이해도 확인

다음 질문의 경우 원하는 화살표를 클릭하여 답을 확인하세요.

광고 관련 머신러닝 모델을 만들고 있으며 1월의 광고주 지출을 예측해 보겠습니다. 디스크에 저장할 수 있는 데이터의 양에 제한이 있으므로 사용 가능한 데이터의 하위 집합만 사용해야 합니다. 12월의 지난달 데이터부터 모두 사용할 수 있습니다. 다른 사람이 지난 1년 동안 데이터를 샘플링하라고 제안합니다. 어느 게 더 나은지, 그 이유는 무엇인가요?
지난달 데이터 (12월)
이 데이터는 더 최근 데이터이지만 12월 연말연시가 되기 전에 광고주가 지출한 시즌성 영향의 영향을 받을 수 있습니다.
연중 샘플링되는 데이터
이 데이터는 오래되었지만 12월 휴일 전에 광고주 지출이 시즌성 영향의 영향을 받을 가능성이 낮습니다.
사용자가 시청하고 싶어 하는 동영상을 표시하려는 경우 자녀가 YouTube에서 본 동영상을 라벨로 사용합니다. 이 라벨은 직접 또는 파생되었나요?
파생됨
이 라벨은 수행하려는 정확한 예측이 아니므로 파생됩니다. 사용자가 동영상을 열었지만 바로 종료했을 수 있습니다. 이 이벤트는 사용자가 동영상을 시청하지 않더라도 조회로 집계됩니다. 이와 같은 휴리스틱이 유일한 옵션일 수 있지만, 라벨 유형 (직접 또는 파생)과 이 예측이 어떻게 제한되는지 알고 있어야 합니다.
직접
이 라벨은 대체로 정확한 예측이 가능하지만 개발자가 원하는 정확한 예측이 아닙니다.