프레이밍: 주요 ML 용어

(지도) 머신러닝이란 무엇인가요? 간단히 말하면 다음과 같습니다.

  • ML 시스템은 입력을 결합하여 이전에 본 적이 없는 데이터를 적절히 예측하는 방법을 학습합니다.

기본적인 머신러닝 용어를 살펴보겠습니다.

라벨

라벨은 예측하는 항목입니다(단순 선형 회귀의 y 변수). 밀의 향후 가격, 사진에 표시되는 동물의 종류, 오디오 클립의 의미 등 무엇이든지 라벨이 될 수 있습니다.

특성

특성은 입력 변수입니다(단순 선형 회귀의 x 변수). 간단한 머신러닝 프로젝트에서는 특성 하나를 사용하지만 복잡한 머신러닝 프로젝트에서는 다음과 같이 수백만 개의 특성을 사용할 수 있습니다.

\[\\{x_1, x_2, ... x_N\\}\]

스팸 감지 예에는 다음과 같은 특성이 포함될 수 있습니다.

  • 이메일 텍스트의 단어
  • 보내는 사람의 주소
  • 이메일이 전송된 시간
  • '이상한 속임수 하나'라는 구문이 포함된 이메일

는 데이터(x)의 특정 인스턴스입니다. x는 벡터라는 것을 나타내기 위해 굵게 표시합니다. 예는 두 카테고리로 구분됩니다.

  • 라벨이 있는 예
  • 라벨이 없는 예

라벨이 있는 예에는 특성과 라벨이 모두 포함됩니다. 즉 다음과 같습니다.

  labeled examples: {features, label}: (x, y)

모델을 학습시키려면 라벨이 있는 예를 사용하세요. 스팸 감지 예에서 라벨이 있는 예는 사용자가 명시적으로 '스팸' 또는 '스팸 아님'으로 표시한 개별 이메일입니다.

예를 들어 다음 표에는 캘리포니아 주택 가격 정보가 포함된 데이터 세트 에서 추출한 라벨이 있는 예 5개가 표시됩니다.

housingMedianAge
특성
totalRooms
특성
totalBedrooms
특성
medianHouseValue
특성
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

라벨이 없는 예에는 특성은 포함되지만 라벨은 포함되지 않습니다. 즉 다음과 같습니다.

  unlabeled examples: {features, ?}: (x, ?)

다음은 medianHouseValue를 포함하지 않는 동일한 주택 데이터세트의 라벨이 없는 3가지 예입니다.

housingMedianAge
특성
totalRooms
특성
totalBedrooms
특성
42 1686 361
34 1226 180
33 1077 271

라벨이 있는 예로 모델을 학습시킨 다음 해당 모델을 사용하여 라벨이 없는 예의 라벨을 예측합니다. 스팸 감지 예에서 라벨이 없는 예는 사람이 라벨을 지정하지 않은 새 이메일입니다.

모델

모델은 특성과 라벨의 관계를 정의합니다. 예를 들어, 스팸 감지 모델에서 특정 특성을 '스팸'과 긴밀하게 연결할 수 있습니다. 모델 수명의 두 단계를 골라 살펴보겠습니다.

  • 학습은 모델을 만들거나 배우는 것을 의미합니다. 즉 라벨이 있는 예를 모델에 보여 주고, 모델이 특성과 라벨의 관계를 점차적으로 학습하도록 합니다.

  • 추론은 학습된 모델을 라벨이 없는 예에 적용하는 것을 의미합니다. 즉 학습된 모델을 사용하여 유용한 예측(y')을 해냅니다. 예를 들어, 추론하는 동안 라벨이 없는 새로운 예로 medianHouseValue를 예측할 수 있습니다.

회귀와 분류

회귀 모델은 연속적인 값을 예측합니다. 예를 들어 회귀 모델은 다음과 같은 질문에 대한 답을 예측합니다.

  • 캘리포니아의 주택 가격이 얼마인가요?

  • 사용자가 이 광고를 클릭할 확률이 얼마인가요?

분류 모델은 불연속적인 값을 예측합니다. 예를 들어 분류 모델은 다음과 같은 질문에 대한 답을 예측합니다.

  • 주어진 이메일 메시지가 스팸인가요, 스팸이 아닌가요?

  • 이 이미지가 강아지, 고양이 또는 햄스터의 이미지인가요?