프레이밍: 주요 ML 용어

(지도) 머신러닝이란 무엇인가요? 간단히 설명하면 다음과 같습니다.

  • ML 시스템은 입력 방식을 결합하여 이전에 본 적 없는 데이터에 대한 유용한 예측을 생성하는 방법을 학습합니다.

기본적인 머신러닝 용어를 살펴보겠습니다.

라벨

라벨은 예측하는 항목입니다. 간단한 선형 회귀입니다. y 변수입니다. 라벨은 밀의 미래 가격, 그림에 표시되는 동물의 종류, 오디오 클립의 의미 또는 기타일 수 있습니다.

기능

특성은 입력 변수로, 단순 선형 회귀의 x 변수입니다. 간단한 머신러닝 프로젝트는 단일 특성을 사용하는 반면 더 정교한 머신러닝 프로젝트는 다음과 같이 수백만 개의 특성을 사용할 수 있습니다.

\[\\{x_1, x_2, ... x_N\\}\]

스팸 감지기의 예에서 이러한 특성에는 다음이 포함될 수 있습니다.

  • 이메일 텍스트에 포함된 단어
  • 발신자 주소
  • 이메일이 전송된 시간
  • 이메일에 '이상한 속임수'라는 문구가 포함되어 있습니다.

는 데이터의 특정 인스턴스인 x입니다. x는 벡터임을 나타내기 위해 굵게 표시합니다. 예시는 두 가지 카테고리로 나뉩니다.

  • 라벨이 있는 예
  • 라벨이 없는 예

라벨이 있는 예에는 특성과 라벨이 모두 포함됩니다. SMART는 각각 다음을 의미합니다.

  labeled examples: {features, label}: (x, y)

라벨이 있는 예를 사용하여 모델을 학습시킵니다. 스팸 감지 예에서 라벨이 지정된 예는 사용자가 명시적으로 '스팸' 또는 '스팸 아님'으로 표시한 개별 이메일입니다.

예를 들어 다음 표에는 캘리포니아의 주택 가격에 대한 정보가 포함된 데이터 세트의 라벨 지정 예 5개가 표시됩니다.

주택 중앙값
(특성)
totalRooms
(특징)
총 침실
(기능)
median HouseValue
(라벨)
15 5612 1283 66900
19 7650 1901 80100
17 720 174 85700
14 1501 337 73400
20 1454 326 65500

라벨이 없는 예에는 특성은 포함되지만 라벨은 포함되지 않습니다. SMART는 각각 다음을 의미합니다.

  unlabeled examples: {features, ?}: (x, ?)

다음은 동일한 주택 데이터 세트의 medianHouseValue 라벨이 없는 예 3개입니다.

주택 중앙값
(특성)
totalRooms
(특징)
총 침실
(기능)
42 1686 361
34 1226 180
33 1077 271

라벨이 있는 예제를 사용하여 모델을 학습시키면 이 모델을 사용하여 라벨이 없는 예시의 라벨을 예측합니다. 스팸 감지기에서 라벨이 지정되지 않은 예는 사람이 아직 라벨을 지정하지 않은 새로운 이메일입니다.

모델

모델은 특성과 라벨 간의 관계를 정의합니다. 예를 들어 스팸 감지 모델이 특정 특성을 '스팸'과 강력하게 연결할 수 있습니다. 모델 수명 주기의 두 단계를 소개하겠습니다.

  • 학습은 모델을 만들거나 학습하는 것을 의미합니다. 즉, 라벨이 있는 예를 모델에 보여 주고, 모델이 특성과 라벨 간의 관계를 점진적으로 학습할 수 있습니다.

  • 추론은 학습된 모델을 라벨이 없는 예에 적용하는 것을 의미합니다. 즉, 학습된 모델을 사용하여 유용한 예측을 수행합니다(y'). 예를 들어 추론 중에 라벨이 지정되지 않은 새로운 예의 medianHouseValue를 예측할 수 있습니다.

회귀와 분류 비교

회귀 모델은 연속적인 값을 예측합니다. 예를 들어 회귀 모델은 다음과 같은 질문에 답하는 예측을 수행합니다.

  • 캘리포니아의 주택은 어떤 가치를 가지나요?

  • 사용자가 이 광고를 클릭할 확률은 얼마인가요?

분류 모델은 불연속 값을 예측합니다. 예를 들어 분류 모델은 다음과 같은 질문에 답하는 예측을 수행합니다.

  • 특정 이메일 메시지가 스팸인가요?

  • 개, 고양이, 햄스터의 이미지인가요?