배운 내용 테스트하기

다음 질문은 핵심 ML 개념을 확실히 이해하는 데 도움이 됩니다.

예측력

지도 ML 모델은 라벨이 지정된 예가 있는 데이터 세트를 사용하여 학습됩니다. 모델은 특성에서 라벨을 예측하는 방법을 학습합니다. 그러나 데이터 세트의 모든 특성에 예측 성능이 있는 것은 아닙니다 어떤 경우에는 특성 몇 개만 라벨의 예측자로 작동하기도 합니다. 아래 데이터 세트에서 가격을 라벨로 사용하고 나머지 열을 특성으로 사용합니다.

자동차 속성의 라벨이 지정된 예

자동차 가격을 예측할 수 있는 세 가지 특성은 무엇인가요?
Make_model, 연, 마일
자동차의 제조사/모델, 연식, 주행 거리는 자동차 가격을 가장 효과적으로 예측하는 요소일 가능성이 높습니다.
색상, 높이, make_model
자동차의 높이와 색상은 자동차 가격을 예측하기에 좋은 요인이 아닙니다.
마일, 기어박스, make_model입니다.
기어박스는 가격의 주요 예측 요인이 아닙니다.
Tire_size, wheel_base, year.
타이어 크기와 휠 베이스는 자동차 가격을 예측하기에 적합하지 않습니다.

지도 및 비지도 학습

문제에 따라 지도 또는 비지도 접근 방식을 사용하게 됩니다. 예를 들어 예측하려는 값이나 카테고리를 미리 알고 있는 경우에는 지도 학습을 사용합니다. 그러나 데이터 세트에 관련 예시의 세분화 또는 그룹화가 포함되어 있는지 알아보려면 비지도 학습을 사용합니다.

온라인 쇼핑 웹사이트의 사용자 데이터 세트에 다음 열이 포함되어 있다고 가정해 보겠습니다.

고객 속성이 나열된 행의 이미지입니다.

사이트를 방문하는 사용자 유형을 파악하려면 지도 학습을 사용해야 할까요? 아니면 비지도 학습을 사용해야 할까요?
비지도 학습
모델이 관련 고객 그룹을 클러스터링하려고 하므로 비지도 학습을 사용합니다. 모델이 사용자를 클러스터링한 후 각 클러스터에 고유한 이름을 만듭니다(예: '할인 구직자', '할인 사냥꾼', '서퍼', '충성도', '방랑자').
사용자가 속한 클래스를 예측하려고 하므로 지도 학습입니다.
지도 학습에서는 예측하려는 라벨이 데이터 세트에 포함되어야 합니다. 데이터 세트에는 사용자 카테고리를 참조하는 라벨이 없습니다.

다음 열이 있는 집의 에너지 사용량 데이터 세트가 있다고 가정해 보겠습니다.

주택 속성이 나열된 줄의 이미지입니다.

새로 지은 주택에 연간 사용되는 킬로와트 시간을 예측하려면 어떤 유형의 ML을 사용해야 하나요?
지도 학습
지도 학습은 라벨이 있는 예를 학습합니다. 이 데이터 세트에서 '연간 킬로와트 시간'은 모델이 예측할 값이므로 라벨이 됩니다. 특성은 '정사각형 영상', '위치', '제작 연도'입니다.
비지도 학습
비지도 학습에서는 라벨이 없는 예를 사용합니다. 이 예시에서는 모델에서 예측할 값이기 때문에 '연간 킬로와트 시간'이 라벨이 됩니다.

다음 열이 있는 항공편 데이터 세트가 있다고 가정해 보겠습니다.

항공편 데이터 행의 이미지입니다.

코치 티켓의 비용을 예측하려면 회귀 또는 분류를 사용해야 하나요?
회귀
회귀 모델의 출력은 숫자 값입니다.
분류
분류 모델의 출력은 불연속 값(일반적으로 단어)입니다. 이 경우 코치 티켓의 비용은 숫자 값입니다.
데이터 세트를 기준으로 '높음', '평균', '낮음'으로 코치 티켓의 비용을 분류하도록 분류 모델을 학습시킬 수 있나요?
예. 하지만 먼저 coach_ticket_cost 열의 숫자 값을 범주형 값으로 변환해야 합니다.
데이터 세트에서 분류 모델을 만들 수 있습니다. 다음과 같이 하면 됩니다.
  1. 출발 공항에서 도착지 공항까지 가는 티켓의 평균 비용을 확인합니다.
  2. '높음', '평균', '낮음'을 구성하는 임곗값을 결정합니다.
  3. 예측 비용을 기준과 비교하고 값이 속한 카테고리를 출력합니다.
아니요. 분류 모델을 만들 수 없습니다. coach_ticket_cost 값은 범주형이 아닌 숫자입니다.
약간의 작업만 수행하면 분류 모델을 만들 수 있습니다.
아니요. 분류 모델은 spam 또는 not_spam와 같은 두 가지 카테고리만 예측합니다. 이 모델은 세 가지 카테고리를 예측해야 합니다.
분류 모델은 여러 카테고리를 예측할 수 있습니다. 이를 멀티클래스 분류 모델이라고 합니다.

학습 및 평가

모델을 학습시킨 후 라벨이 지정된 예가 있는 데이터 세트를 사용하여 모델을 평가하고 모델의 예측 값을 라벨의 실제 값과 비교합니다.

질문에 가장 적절한 답변을 두 개 선택하세요.

모델의 예측이 멀리 떨어져 있다면 예측을 개선하기 위해 무엇을 할 수 있을까요?
모델을 다시 학습시키되, 라벨에 대해 가장 강력한 예측 성능이 있다고 생각되는 특성만 사용합니다.
특성은 적지만 예측 능력이 높은 모델을 재학습시키면 더 나은 예측을 수행하는 모델을 만들 수 있습니다.
예측이 멀리 떨어진 모델은 수정할 수 없습니다.
예측이 꺼진 모델은 수정할 수 있습니다. 대부분의 모델은 유용한 예측을 할 때까지 여러 차례의 학습을 거쳐야 합니다.
더 크고 다양한 데이터 세트를 사용하여 모델을 다시 학습시킵니다.
더 많은 예시와 더 광범위한 값이 포함된 데이터 세트로 학습된 모델은 특성과 라벨 간의 관계에 대한 보다 일반화된 솔루션이 있기 때문에 더 나은 예측을 생성할 수 있습니다.
다른 학습 방법을 사용해 보세요. 예를 들어 지도 방식을 사용했다면 비지도 접근 방식을 사용해 보세요.
다른 학습 접근 방식을 사용하면 더 나은 예측을 생성할 수 없습니다.

이제 ML 여정의 다음 단계로 나아갈 준비가 되었습니다.

  • People + AI 가이드북 ML을 사용하기 위해 Google 직원, 업계 전문가, 학술 연구가 제공하는 방법, 권장사항, 예를 찾고 있다면

  • 문제 프레이밍. ML 모델을 만들고 진행 과정에서 발생하는 일반적인 함정을 피하기 위한 현장 테스트를 거친 접근 방식을 찾고 있는 경우

  • 머신러닝 단기집중과정. ML에 대해 자세히 알아보기 위한 심층적이고 실습할 준비가 되었다면