데이터 변환: 이해도 확인

다음 질문의 경우 원하는 화살표를 클릭하여 답을 확인하세요.

회귀 모델의 데이터를 사전 처리합니다. 어떤 변환이 필요한가요? 해당 사항을 모두 선택하세요.
숫자가 아닌 모든 특성을 숫자 특성으로 변환
정답입니다. 이는 필수 변환입니다. 문자열에 행렬 곱셈을 수행할 수 없으므로 문자열을 숫자 표현으로 변환해야 합니다.
숫자 데이터 정규화
숫자 데이터를 정규화하면 도움이 될 수 있지만 품질 변환은 선택사항입니다.

 

아래 차트를 살펴보세요. 가장 생산성이 높은 데이터 변환 기법은 무엇이며 그 이유는 무엇인가요? RoomPerPerson과 주택 가격 사이의 선형 관계를 찾는 것이 목표라고 가정해 보겠습니다.
Z 점수
이상점이 심각하지 않은 경우 Z-점수를 사용하는 것이 좋습니다. 그러나 이상점은 여기에서 극단적으로 나타납니다.
클리핑
데이터 세트에서 극단적인 이상점을 포함하므로 클리핑을 사용하는 것이 좋습니다. 다른 정규화를 적용하기 전에 극단적인 이상점을 수정해야 합니다.
로그 확장
데이터가 전력법 배포에 적용되는 경우 로그 확장이 적합합니다. 그러나 이 데이터는 권력법 분포가 아닌 정규 분포를 따릅니다.
분위수 경계를 사용한 버케팅 (비닝)
분위수 버케팅은 편향된 데이터에 적합한 접근 방식입니다. 그러나 이 경우 이 편향은 부분적으로 극단적인 이상점에 기인합니다. 또한 모델이 선형 관계를 학습하기를 원합니다. 따라서 roomPerPerson을 카테고리로 변환하는 대신 roomPerPerson을 숫자로 유지해야 합니다. 대신 정규화 기법을 시도해 보세요.

서로 다른 RoomsPerPerson의 상대적 빈도를 보여주는 차트입니다. 여기에서 RoomsPerPerson은 주거 지역의 회의실 수를 숙박 시설의 사람 수로 나눈 값입니다.  대부분의 데이터는 5에서 55까지 포인트로 분산되어 0에서 5 사이로 분산됩니다.

 

아래 차트를 살펴보세요. 가장 생산성이 높은 데이터 변환 기법은 무엇이며 그 이유는 무엇인가요?
Z 점수
이상점이 심각하지 않고 잘라내야 하는 경우 Z-score를 사용하는 것이 좋습니다. 그렇지 않습니다. 데이터가 왜곡되는 방식은 힌트여야 합니다.
클리핑
극단적인 이상점이 있으면 자르기가 적합합니다. 그러나 이 차트는 전력 분포를 보여주고 있으며 이를 해결하는 데 더 나은 또 다른 정규화 기법이 있습니다.
로그 확장
데이터가 전력법 분포를 준수하므로 로그 배율을 설정하는 것이 좋습니다.
분위수 경계를 사용한 버케팅 (비닝)
분위수 버케팅은 편향된 데이터에 적합한 접근 방식입니다. 그러나 이 모델을 통해 선형 관계를 학습할 수 있습니다. 따라서 데이터를 숫자로 유지하고 버킷에 넣지 않아야 합니다. 대신 정규화 기법을 시도해 보세요.

저사양 막대가 심하게 집중된 막대 그래프입니다. 첫 번째 막대의 크기는 1,200, 두 번째 막대의 크기는 460, 세 번째 막대의 크기는 300입니다. 15번째 막대에서는 크기가 약 30까지 줄어듭니다. 롱테일의 크기가 10을 넘으면 안 되는 90개의 막대에 대해 매우 긴 꼬리가 계속됩니다.

 

아래 차트를 살펴보세요. 선형 모델이 압축비와 도시 mpg 간의 관계에 대해 좋은 예측을 할 것인가? 그렇지 않다면 어떻게 하면 모델을 더 효과적으로 학습시키기 위해 데이터를 변환할 수 있을까요?
예, 이 모델은 선형 관계를 찾아내어 매우 정확한 예측을 수행합니다.
모델이 선형 관계를 찾았지만 모델은 매우 정확하게 예측할 수 없습니다. 데이터 모델링 연습에서 이 데이터 세트를 학습하여 이유를 더 잘 알아볼 수 있습니다.
아니요. 확장 후 모델이 더 정확할 수 있습니다.
선형 배율을 적용할 수 있지만, 압축비와 도시-mpg 간의 관계는 경사가 동일하게 보입니다. 이 경우 더 낮은 압축비율에 있는 점 클러스터를 위한 기울기와 높은 기울기를 위한 두 개의 개별 기울기를 볼 수 있습니다.
아니요. 서로 다른 두 가지 동작이 발생하는 것 같습니다. 중간에 임곗값을 설정하고 버킷화된 기능을 사용하면 두 영역에서 일어나는 일을 더 잘 이해할 수 있습니다.
정답입니다. 경계를 설정하는 이유와 방법을 명확히 하는 것이 중요합니다. 데이터 모델링 연습에서 이 접근 방식이 더 나은 모델을 만드는 데 어떤 도움이 되는지 자세히 알아봅니다.

압축비에 대한 고속도로 mpg를 보여주는 산점도. 서로 다른 두 개의 커플 데이터 중 두 개가 서로 다른 데이터 덩어리가 압축비축 축의 양쪽 끝에 표시됩니다. 큰 클럼프는 압축비 범위 7~12를 포함합니다. 작은 덩어리는 압축비 21~23 범위를 포함합니다. 고속도로 mpg는 일반적으로 작은 덩어리보다 큰 덩어리에서 약간 낮습니다.

 

동료 팀이 ML 프로젝트 진행 상황을 알려줍니다. 어휘를 계산하고 오프라인으로 모델을 학습시켰습니다. 하지만 비활성 문제를 피하고자 온라인으로 다른 모델을 학습시키려고 합니다. 다음 단계
새 데이터가 도착하면 모델이 최신 상태로 유지됩니다. 다른 팀은 입력 데이터를 지속적으로 모니터링해야 합니다.
모델 비활성을 방지하는 것이 동적 학습의 주요 이점이지만, 오프라인으로 학습된 모델과 함께 어휘를 사용하면 문제가 발생할 수 있습니다.
사용 중인 색인이 어휘와 일치하지 않을 수 있습니다.
정답입니다. 동료들에게 학습/서빙 편향의 위험에 관해 경고하고 ML에 대한 Google의 데이터 준비 및 특성 추출에 관한 과정을 수강하도록 권장합니다.