데이터 세트 구성 소개

데이터 세트 구성 단계

데이터 변환을 수행하기 전과 데이터를 변환하기 전에 다음을 수행해야 합니다.

  1. 원시 데이터를 수집합니다.
  2. 특성 및 라벨 소스 식별
  3. 샘플링 전략을 선택합니다.
  4. 데이터를 분할합니다.

이 단계는 ML 문제를 프레이밍하는 방식에 따라 크게 달라집니다. 아래 자체 검사를 사용하여 문제 프레이밍에 대한 메모리를 새로고침하고 데이터 수집에 대한 가정을 확인하세요.

문제 프레이밍 및 데이터 수집 개념 자체 검사

다음 질문의 경우 원하는 화살표를 클릭하여 답을 확인하세요.

새 머신러닝 프로젝트를 진행 중입니다. 첫 번째 특성을 선택하려고 합니다. 특성을 몇 개 선택해야 하나요?
강력한 예측력을 보이는 것으로 보이는 1~3개의 특성을 선택하세요.
데이터 수집 파이프라인은 한두 개의 특성으로만 시작하는 것이 가장 좋습니다. 이렇게 하면 ML 모델이 의도한 대로 작동하는지 확인할 수 있습니다. 또한 몇 가지 기능에서 기준을 빌드하면 발전하고 있다고 느끼게 됩니다.
강력한 예측 성능을 보이는 4~6개의 특성을 선택하세요.
결국에는 이처럼 많은 기능을 사용할 수 있겠지만 적은 수부터 시작하는 것이 좋습니다. 특성 수가 적기 때문에 일반적으로 불필요한 정보 표시는 적습니다.
최대한 많은 특성을 선택하여 가장 강력한 예측 성능이 있는 특성을 관찰할 수 있습니다.
더 작게 시작하세요. 모든 새 특성은 학습 데이터 세트에 새로운 차원을 추가합니다. 차원이 증가하면 공간 볼륨이 너무 빨리 증가하여 사용 가능한 학습 데이터가 희소해집니다. 데이터가 희소할수록 모델이 실제로 중요한 특성과 라벨 간의 관계를 학습하기가 더 어려워집니다. 이러한 현상을 차원의 저주라고 합니다.
친구인 샘은 통계 분석의 초기 결과에 매우 만족합니다. 그는 데이터에 따르면 앱 다운로드 수와 앱 리뷰 노출수 간에는 양의 상관관계가 있습니다. 하지만 리뷰를 보지 않고 다운로드했을지는 확신할 수 없습니다. 샘에게 가장 도움이 될 답변은 무엇인가요?
실험을 진행하지 않은 사용자의 행동과 그렇지 않은 사용자의 행동을 비교하는 실험을 진행할 수 있습니다.
정답입니다. 긍정적인 리뷰를 본 사용자가 앱을 다운로드하지 않은 사용자보다 앱을 다운로드할 가능성이 더 높다는 사실을 관찰한 경우, 긍정적인 리뷰를 통해 사용자가 앱을 이용하도록 장려한다는 사실을 알 수 있습니다.
데이터를 신뢰합니다. 훌륭한 리뷰 덕분에 사용자가 앱을 다운로드하는 이유가 분명하다는 점은 분명합니다.
정답이 아닙니다. 이 응답은 샘을 올바른 방향으로 안내하지 않습니다. 관측 데이터만으로는 인과관계를 파악할 수 없습니다. 샘은 인과관계를 나타낼 수도 있는 관계일 수도 있는 상관관계 (즉, 숫자 간의 통계적 종속 항목)를 보고 있습니다. 분석을 가짜 상관관계의 랭킹에 조인하지 마세요.