머신러닝 용어집: ML 기초

이 페이지에는 ML 기초 용어집 관련 용어가 포함되어 있습니다. 모든 용어집 용어를 보려면 여기를 클릭하세요.

A

accuracy

#fundamentals

올바른 분류 예측 수를 총 예측 수로 나눈 값입니다. 이는 다음과 같은 의미입니다.

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

예를 들어 올바른 예측을 40번, 잘못된 예측을 10번 한 모델의 정확성은 다음과 같습니다.

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

이진 분류올바른 예측잘못된 예측의 여러 카테고리에 특정 이름을 제공합니다. 따라서 이진 분류의 정확도 공식은 다음과 같습니다.

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

각 항목의 의미는 다음과 같습니다.

  • TP는 참양성 (올바른 예측)의 수입니다.
  • TN은 참음성 (올바른 예측)의 수입니다.
  • FP는 거짓양성 (잘못된 예측)의 수입니다.
  • FN은 거짓음성 (잘못된 예측)의 수입니다.

정확성을 정밀도재현율과 비교 및 대조합니다.

활성화 함수

#fundamentals

신경망이 특성과 라벨 간의 비선형 (복잡한) 관계를 학습하도록 하는 함수입니다.

많이 사용되는 활성화 함수는 다음과 같습니다.

활성화 함수의 도표는 단 한 직선이 아닙니다. 예를 들어 ReLU 활성화 함수의 도표는 다음 두 개의 직선으로 구성됩니다.

두 선의 데카르트 도표 첫 번째 줄은 상수 y 값 0을 가지며 x축을 따라 -infinity,0에서 0, -0으로 이어집니다.
          두 번째 줄은 0,0에서 시작합니다. 이 선의 기울기는 +1이므로
          0,0에서 +무한대,+무한대까지 이어집니다.

시그모이드 활성화 함수의 도표는 다음과 같습니다.

도메인 -무한대에서 +양까지의 x값을 포함하는 2차원 곡선 도표이고 y 값은 거의 0에서 거의 1까지의 범위에 걸쳐 있습니다. x가 0인 경우 y는 0.5입니다. 곡선의 기울기는 항상 양수이며 0,0.5에서 가장 높은 기울기를 나타내며 x의 절댓값이 증가하면 기울기가 점차 작아집니다.

오해가 있는데

#fundamentals

정교한 작업을 해결할 수 있는 사람이 만들지 않은 프로그램 또는 model입니다. 예를 들어 텍스트 또는 방사선 이미지에서 질병을 식별하는 프로그램이나 모델을 번역하는 프로그램이나 모델은 모두 인공지능을 보입니다.

공식적으로 머신러닝은 인공지능의 하위 분야입니다. 하지만 최근 몇 년 동안 일부 조직에서 인공지능머신러닝이라는 용어를 같은 의미로 사용하기 시작했습니다.

AUC (ROC 곡선 아래 영역)

#fundamentals

포지티브 클래스네거티브 클래스를 구분하는 이진 분류 모델의 기능을 나타내는 0.0과 1.0 사이의 숫자입니다. AUC가 1.0에 가까울수록 모델이 클래스를 서로 더 잘 분리할 수 있습니다.

예를 들어 다음 그림은 포지티브 클래스 (녹색 타원)와 네거티브 클래스(보라색 직사각형)를 완벽하게 구분하는 분류 기준 모델을 보여줍니다. 비현실적으로 완벽한 이 모델의 AUC는 1.0입니다.

한쪽에는 긍정적인 예 8개가 있고 다른 쪽에는 부정적 예가 9개 있는 숫자 선입니다.

반대로 다음 그림은 무작위 결과를 생성한 분류 기준 모델의 결과를 보여줍니다. 이 모델의 AUC는 0.5입니다.

긍정적인 예 6개와 부정적인 예 6개가 있는 숫자 선입니다.
          예시 순서는 양수, 음의, 양성, 음의, 양성, 음의, 양성, 긍정의 부정, 긍정, 음의 순서로 되어 있습니다.

예, 위 모델의 AUC는 0.0이 아닌 0.5입니다.

대부분의 모델은 두 극단 사이의 어딘가에 있습니다. 예를 들어 다음 모델에서는 양성과 음성이 어느 정도 분리되므로 AUC가 0.5~1.0입니다.

긍정적인 예 6개와 부정적인 예 6개가 있는 숫자 선입니다.
          예시 순서는 음수, 음의, 부정적, 음의, 긍정, 부정적, 긍정, 긍정, 부정적, 긍정, 긍정, 긍정입니다.

AUC는 분류 임곗값에 설정한 모든 값을 무시합니다. 대신 AUC는 가능한 모든 분류 임곗값을 고려합니다.

B

역전파

#fundamentals

신경망에서 경사하강법을 구현하는 알고리즘입니다.

신경망을 학습시키려면 다음 2회 패스 주기를 여러 번 반복해야 합니다.

  1. 정방향 패스 중에 시스템은 배치를 처리하여 예측을 생성합니다. 시스템은 각 예측을 각 라벨 값과 비교합니다. 이 예에서 예측과 라벨 값의 차이가 손실입니다. 시스템은 모든 예시의 손실을 집계하여 현재 배치의 총 손실을 계산합니다.
  2. 역전파(역전파) 과정에서 시스템은 모든 히든 레이어 내 모든 뉴런의 가중치를 조정하여 손실을 줄입니다.

신경망에는 많은 히든 레이어에 걸쳐 많은 뉴런이 포함되는 경우가 많습니다. 이러한 각 뉴런은 서로 다른 방식으로 전체 손실에 기여합니다. 역전파는 특정 뉴런에 적용되는 가중치를 늘리거나 줄일지 여부를 결정합니다.

학습률은 각 역방향 전달에서 각 가중치가 증가하거나 감소하는 정도를 제어하는 승수입니다. 학습률이 크면 각 가중치가 작은 학습률보다 증가하거나 감소합니다.

미적분학에서 역전파는 미적분학의 연쇄 법칙을 구현합니다. 즉, 역전파는 각 매개변수를 기준으로 오차의 편미분을 계산합니다. 자세한 내용은 머신러닝 단기집중과정 튜토리얼을 참조하세요.

몇 년 전만 해도 ML 실무자들은 역전파를 구현하기 위해 코드를 작성해야 했습니다. TensorFlow와 같은 최신 ML API는 이제 역전파를 자동으로 구현합니다. 다행입니다.

일괄

#fundamentals

하나의 학습 반복에 사용된 예시 집합입니다. 배치 크기는 배치 하나에 포함되는 예의 수를 결정합니다.

배치와 에포크의 관계에 대한 설명은 에포크를 참조하세요.

배치 크기

#fundamentals

배치 하나에 포함된 의 개수입니다. 예를 들어 배치 크기가 100이면 모델은 반복당 100개의 예를 처리합니다.

많이 사용되는 배치 크기 전략은 다음과 같습니다.

  • 확률적 경사하강법 (SGD) - 배치 크기가 1입니다.
  • 전체 배치의 경우 배치 크기는 전체 학습 세트에 있는 예의 수입니다. 예를 들어 학습 세트에 예시가 100만 개 포함되어 있다면 배치 크기는 예시 백만 개가 됩니다. 전체 배치는 일반적으로 비효율적인 전략입니다.
  • 배치 크기가 일반적으로 10~1,000인 미니 배치 일반적으로 미니 배치가 가장 효율적인 전략입니다.

편향 (윤리/공정성)

#fairness
#fundamentals

1. 특정 사물, 사람 또는 집단에 대한 정형화, 편견 또는 편견을 유발하는 것입니다. 이러한 편향은 데이터 수집 및 해석, 시스템 설계, 사용자가 시스템과 상호작용하는 방식에 영향을 미칠 수 있습니다. 이러한 유형의 편향은 다음과 같습니다.

2. 샘플링 또는 보고 절차에 의해 발생하는 계통 오차입니다. 이러한 유형의 편향은 다음과 같습니다.

머신러닝 모델의 바이어스 항 또는 예측 편향과 혼동하지 마시기 바랍니다.

편향 (수학) 또는 편향 항

#fundamentals

원점으로부터의 절편 또는 오프셋입니다. 편향은 머신러닝 모델의 매개변수이며 다음 중 하나로 기호화됩니다.

  • b
  • 0

예를 들어 다음 수식에서 편향은 b입니다.

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

간단한 2차원 선에서 편향은 'y절편'을 의미합니다. 예를 들어 다음 그림에서 선의 편향은 2입니다.

기울기가 0.5이고 편향 (y절편)이 2인 선의 도표입니다.

편향이 존재하는 이유는 일부 모델이 원점 (0,0)에서 시작하는 것은 아니기 때문입니다. 예를 들어 놀이공원 입장료가 2유로이고 고객이 숙박할 때마다 1시간에 0.5유로가 추가된다고 가정해 보겠습니다. 따라서 가장 낮은 비용이 2유로이므로 총비용을 매핑하는 모델의 편향은 2입니다.

편향을 윤리 및 공정성의 편향 또는 예측 편향과 혼동해서는 안 됩니다.

이진 분류

#fundamentals

상호 배타적인 두 클래스 중 하나를 예측하는 분류 작업의 유형입니다.

예를 들어 다음 두 머신러닝 모델은 각각 이진 분류를 수행합니다.

  • 이메일 메시지가 스팸 (포지티브 클래스)인지 스팸이 아닌 (네거티브 클래스)인지를 결정하는 모델입니다.
  • 의학적 증상을 평가하여 특정 질환이 있는지 (양성 클래스) 또는 해당 질환이 없는지 (네거티브 클래스) 여부를 판단하는 모델입니다.

다중 클래스 분류와 대비되는 개념입니다.

로지스틱 회귀분류 임곗값도 참조하세요.

버케팅

#fundamentals

일반적으로 값 범위를 기준으로 단일 특성버킷 또는 이라고 하는 여러 바이너리 특성으로 변환합니다. 잘린 특성은 일반적으로 연속 특성입니다.

예를 들어 온도를 단일 부동 소수점 연속 특성으로 표현하는 대신 온도 범위를 다음과 같은 불연속 버킷으로 잘라낼 수 있습니다.

  • 섭씨 10도 이하는 '콜드' 버킷이 됩니다.
  • 섭씨 11~24도가 '온도' 버킷이 됩니다.
  • 섭씨 25도 이상은 '웜' 버킷이 됩니다.

모델은 동일한 버킷의 모든 값을 동일하게 취급합니다. 예를 들어 값 1322은 모두 임시 버킷에 있으므로 모델이 두 값을 동일하게 취급합니다.

C

범주형 데이터

#fundamentals

가능한 특정 값 집합을 갖는 특성입니다. 예를 들어 다음 세 가지 값 중 하나만 가질 수 있는 traffic-light-state이라는 범주형 특성이 있다고 가정해 보겠습니다.

  • red
  • yellow
  • green

traffic-light-state를 범주형 특성으로 표현하면 모델은 red, green, yellow가 드라이버 동작에 미치는 다양한 영향을 학습할 수 있습니다.

범주형 특성을 불연속 특성이라고도 합니다.

수치 데이터와 대비되는 개념입니다.

클래스

#fundamentals

라벨이 속할 수 있는 카테고리입니다. 예를 들면 다음과 같습니다.

  • 스팸을 감지하는 이진 분류 모델에서 두 클래스는 스팸일 수 있고 스팸이 아님일 수 있습니다.
  • 견종을 식별하는 다중 클래스 분류 모델에서 클래스는 푸들, 비글, 퍼그 등일 수 있습니다.

분류 모델은 클래스를 예측합니다. 반대로 회귀 모델은 클래스가 아닌 숫자를 예측합니다.

분류 모델

#fundamentals

예측이 modelmodel입니다. 예를 들어 다음은 모두 분류 모델입니다.

  • 입력 문장의 언어 (프랑스어? 스페인어? 이탈리아어?)
  • 수종 (단풍나무? Oak? Baobab?).
  • 특정 의학적 상태에 대해 양성 또는 네거티브 클래스를 예측하는 모델입니다.

반대로 회귀 모델은 클래스가 아닌 숫자를 예측합니다.

두 가지 일반적인 분류 모델 유형은 다음과 같습니다.

분류 임계값

#fundamentals

이진 분류에서 로지스틱 회귀 모델의 원시 출력을 포지티브 클래스 또는 네거티브 클래스의 예측으로 변환하는 0과 1 사이의 숫자입니다. 분류 임곗값은 모델 학습이 선택한 값이 아니라 사람이 선택하는 값입니다.

로지스틱 회귀 모델은 0과 1 사이의 원시 값을 출력합니다. 다음 안내를 따르세요.

  • 이 원시 값이 분류 임계값보다 크면 포지티브 클래스가 예측됩니다.
  • 이 원시 값이 분류 임계값보다 작으면 네거티브 클래스가 예측됩니다.

예를 들어 분류 임계값이 0.8이라고 가정해 보겠습니다. 원시 값이 0.9이면 모델이 포지티브 클래스를 예측합니다. 원시 값이 0.7이면 모델이 네거티브 클래스를 예측합니다.

분류 임곗값의 선택은 거짓양성거짓음성의 수에 큰 영향을 줍니다.

클래스 불균형 데이터 세트

#fundamentals

각 클래스의 총 라벨 수가 크게 다른 분류 문제의 데이터 세트입니다. 예를 들어 두 라벨이 다음과 같이 나뉜 이진 분류 데이터 세트를 가정해 보겠습니다.

  • 제외 라벨 1,000,000개
  • 양수 라벨 10개

음성 라벨 대 양성 라벨의 비율은 100,000 대 1이므로 클래스 불균형 데이터 세트입니다.

반면에 다음 데이터 세트는 양성 라벨의 비율이 비교적 1에 가깝기 때문에 클래스 불균형이 아닙니다.

  • 제외 라벨 517개
  • 양수 라벨 483개

또한 다중 클래스 데이터 세트는 클래스 불균형일 수 있습니다. 예를 들어 다음 다중 클래스 분류 데이터 세트도 다른 두 라벨보다 예시가 훨씬 많기 때문에 클래스 불균형이 있습니다.

  • 'green' 클래스가 포함된 라벨 1,000,000개
  • '자주색' 클래스가 포함된 라벨 200개
  • 'orange' 클래스가 포함된 라벨 350개

엔트로피, 주류 클래스, 다수 클래스도 참고하세요.

클리핑

#fundamentals

다음 중 하나 또는 둘 다를 실행하여 이상점을 처리하는 기술입니다.

  • 최대 임곗값보다 큰 feature 값을 해당 최대 임곗값까지 줄입니다.
  • 최소 임곗값 미만인 특성 값을 최소 임곗값까지 늘립니다.

예를 들어 특정 특성 값의 0.5% 미만이 40~60 범위를 벗어났다고 가정해 보겠습니다. 이 경우 다음을 수행할 수 있습니다.

  • 60 (최대 임계값)을 초과하는 모든 값을 정확히 60으로 자릅니다.
  • 40 (최소 임계값) 미만의 모든 값을 정확히 40으로 자릅니다.

이상점은 모델을 손상시키고 경우에 따라 학습 중에 가중치가 오버플로될 수 있습니다. 일부 이상점은 정확도와 같은 측정항목을 크게 망칠 수 있습니다. 클리핑은 손상을 제한하는 일반적인 기법입니다.

그라데이션 클리핑은 학습 중에 경사 값을 지정된 범위 내로 강제합니다.

혼동 행렬

#fundamentals

분류 모델에서 수행한 정답 및 오답 예측의 수를 요약한 NxN 표 예를 들어 이진 분류 모델에서 다음 혼동 행렬을 고려해 보세요.

종양 (예측) 비종양 (예측)
종양 (정답) 18 (TP) 1 (FN)
비종양 (정답) 6 (FP) 452 (TN)

앞의 혼동 행렬은 다음을 보여줍니다.

  • 정답이 종양인 예측 19개 중 모델이 18개를 올바르게 분류하고 1개를 잘못 분류했습니다.
  • 모델은 정답이 비종양인 예측 458개 중 452개를 올바르게 분류하고 6개를 잘못 분류했습니다.

다중 클래스 분류 문제의 혼동 행렬은 실수 패턴을 식별하는 데 도움이 될 수 있습니다. 예를 들어 세 가지 붓꽃 유형(Virginica, Versicolor, Setosa)을 분류하는 3클래스 다중 클래스 분류 모델에 대한 다음 혼동 행렬을 살펴보겠습니다. 정답이 버지니카인 경우 혼동 행렬은 모델이 Setosa보다 Versicolor를 잘못 예측할 가능성이 훨씬 높다는 것을 보여줍니다.

  Setosa (예측) Versicolor (예측됨) 버지니카 (예상)
세토사 (정답) 88 12 0
Versicolor (정답) 6 141 7
버지니카 (정답) 2 27 109

또 다른 예로, 혼동 행렬을 사용하면 필기한 숫자를 인식하도록 학습된 모델이 4가 아닌 9를 잘못 예측하거나 7이 아닌 1을 잘못 예측하는 경향이 있음을 발견할 수 있습니다.

혼동 행렬은 정밀도, 재현율 등 다양한 성능 측정항목을 계산하기에 충분한 정보를 포함합니다.

연속 특성

#fundamentals

온도나 무게와 같이 가능한 값의 무한 범위를 갖는 부동 소수점 특성입니다.

불연속 특성과 대비되는 개념입니다.

수렴

#fundamentals

반복에서 손실 값이 거의 변경되지 않거나 전혀 변경되지 않는 경우에 도달한 상태입니다. 예를 들어 다음 손실 곡선은 약 700회의 반복에서 수렴을 나타냅니다.

데카르트 도표 X축은 손실입니다. Y축은 학습 반복 횟수입니다. 처음 몇 번의 반복에서는 손실이 매우 높지만 급격하게 감소합니다. 약 100번의 반복 후에도 손실은 여전히 하강하지만 훨씬 더 점진적입니다. 약 700회 반복하면 손실이 수평으로 유지됩니다.

추가 학습으로는 모델이 개선되지 않을 때 모델이 수렴됩니다.

딥 러닝에서는 여러 번 반복할 때 손실 값이 일정하게 또는 거의 내림차순 유지되기도 합니다. 일정한 손실 값이 유지되면 일시적으로 잘못된 수렴 감이 생길 수 있습니다.

조기 중단도 참조하세요.

케이스가

DataFrame

#fundamentals

메모리에서 데이터 세트를 표현하는 데 널리 사용되는 pandas 데이터 유형입니다.

DataFrame은 표 또는 스프레드시트와 유사합니다. DataFrame의 각 열에는 이름 (헤더)이 있으며 각 행은 고유 번호로 식별됩니다.

DataFrame의 각 열은 2D 배열과 같이 구조화되지만, 각 열에 고유한 데이터 유형을 할당할 수 있다는 점이 다릅니다.

공식 pandas.DataFrame 참조 페이지도 확인하세요.

데이터 세트 또는 데이터 세트

#fundamentals

원시 데이터 모음으로, 일반적으로 다음 형식 중 하나로 구성되지만 독점적이지는 않습니다.

  • 스프레드시트
  • CSV (쉼표로 구분된 값) 형식의 파일

심층 모델

#fundamentals

둘 이상의 히든 레이어가 포함된 신경망.

심층 모델은 심층신경망이라고도 합니다.

와이드 모델과 대비되는 개념입니다.

밀집 특성

#fundamentals

대부분의 값 또는 모든 값이 0이 아닌 특성. 일반적으로 부동 소수점 값의 텐서입니다. 예를 들어 다음 10-요소 텐서는 값 중 9개가 0이 아니기 때문에 밀도가 높습니다.

8 3 7 5 2 4 0 4 9 6

희소 특성과 대비되는 개념입니다.

depth

#fundamentals

신경망에서 다음의 합:

예를 들어 히든 레이어 5개와 출력 레이어 1개가 있는 신경망의 깊이는 6입니다.

입력 레이어는 깊이에 영향을 미치지 않습니다.

불연속 특성

#fundamentals

가능한 값의 유한 집합을 갖는 특성입니다. 예를 들어 값이 동물, 식물, 광물 중 하나여야 하는 특성은 불연속 (또는 범주형) 특성입니다.

연속 특성과 대비되는 개념입니다.

동적

#fundamentals

자주 또는 지속적으로 하는 일 동적온라인이라는 용어는 머신러닝에서 동의어입니다. 다음은 머신러닝에서 동적온라인의 일반적인 용도입니다.

  • 동적 모델 (또는 온라인 모델)은 자주 또는 지속적으로 재학습되는 모델입니다.
  • 동적 학습 (또는 온라인 학습)은 자주 또는 지속적으로 학습하는 프로세스입니다.
  • 동적 추론 (또는 온라인 추론)은 요청 시 예측을 생성하는 프로세스입니다.

동적 모델

#fundamentals

자주 (지속적으로) 재학습되는 model입니다. 동적 모델은 진화하는 데이터에 끊임없이 적응하는 '평생 학습자'입니다. 동적 모델을 온라인 모델이라고도 합니다.

정적 모델과 대비되는 개념입니다.

E

조기 중단

#fundamentals

학습 손실이 감소하기 전에 학습을 종료하는 정규화 방법입니다. 조기 중단에서는 검증 데이터 세트의 손실이 증가하기 시작할 때, 즉 일반화 성능이 악화되기 시작하면 의도적으로 모델 학습을 중지합니다.

Embedding 레이어

#language
#fundamentals

저차원 임베딩 벡터를 점진적으로 학습하기 위해 고차원 범주형 특성으로 학습하는 특수한 히든 레이어입니다. 임베딩 레이어를 사용하면 신경망이 고차원 범주형 특성만 학습할 때보다 훨씬 효율적으로 학습시킬 수 있습니다.

예를 들어 지구는 현재 약 73,000종의 수종을 지원하고 있습니다. 트리 종은 모델의 특성이므로 모델의 입력 레이어에 73,000개 길이의 원-핫 벡터가 포함되어 있다고 가정해 보겠습니다. 예를 들어 baobab는 다음과 같이 표시될 수 있습니다.

73,000개 요소의 배열. 처음 6,232개 요소의 값은 0입니다. 다음 요소는 값 1을 보유합니다. 마지막 66,767개 요소는 값 0을 유지합니다.

요소가 73,000개인 배열은 매우 깁니다. 모델에 임베딩 레이어를 추가하지 않으면 72,999개의 0을 곱하기 때문에 학습에 시간이 많이 걸릴 수 있습니다. 12차원으로 구성되도록 임베딩 레이어를 선택할 수 있습니다. 결과적으로 임베딩 레이어는 각 수종의 새로운 임베딩 벡터를 점진적으로 학습합니다.

특정 상황에서는 해싱이 임베딩 레이어의 합리적인 대안이 됩니다.

에포크

#fundamentals

가 한 번씩 처리되도록 전체 학습 세트의 전체 학습 통과

에포크는 N/배치 크기 학습 반복을 나타내며, 여기서 N는 총 예시 수입니다.

예를 들어 다음과 같이 가정해 보겠습니다.

  • 데이터 세트는 1,000개의 예시로 구성됩니다.
  • 배치 크기는 예시 50개입니다.

따라서 단일 에포크에 20번의 반복이 필요합니다.

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

예시

#fundamentals

특성으로 이루어진 한 행의 값 및 라벨일 수 있는 값입니다. 지도 학습의 예는 다음 두 가지 일반 카테고리로 나뉩니다.

  • 라벨이 지정된 예는 하나 이상의 특성과 라벨로 구성됩니다. 라벨이 지정된 예는 학습 중에 사용됩니다.
  • 라벨이 없는 예는 하나 이상의 특성으로 구성되지만 라벨은 없습니다. 라벨이 없는 예가 추론 중에 사용됩니다.

예를 들어 기상 조건이 학생 시험 점수에 미치는 영향을 파악하도록 모델을 학습시킨다고 가정해 보겠습니다. 라벨이 지정된 세 가지 예는 다음과 같습니다.

기능 라벨
강도 습도 압력 테스트 점수
15 47 998 양호
19 34 1020 매우 좋음
18 92 1012 나쁨

다음은 라벨이 지정되지 않은 3가지 예입니다.

강도 습도 압력  
12 62 1014  
21 47 1017  
19 41 1021  

일반적으로 데이터 세트 행은 예의 원시 소스입니다. 즉, 예시는 일반적으로 데이터 세트에 있는 열의 하위 집합으로 구성됩니다. 또한 예시의 특성에는 특성 교차와 같은 합성 특성도 포함될 수 있습니다.

F

거짓음성 (FN)

#fundamentals

모델에서 네거티브 클래스를 잘못 예측하는 예입니다. 예를 들어 모델은 특정 이메일 메시지가 스팸이 아니라(네거티브 클래스) 해당 이메일 메시지가 실제로는 스팸이라고 예측할 수 있습니다.

거짓양성 (FP)

#fundamentals

모델에서 포지티브 클래스를 잘못 예측하는 예입니다. 예를 들어 모델에서 특정 이메일 메시지가 스팸 (포지티브 클래스)이지만 해당 이메일 메시지가 실제로는 스팸이 아님이라고 예측할 수 있습니다.

거짓양성률 (FPR)

#fundamentals

모델이 포지티브 클래스를 잘못 예측한 실제 음성 예의 비율입니다. 다음 수식은 거짓양성률을 계산합니다.

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

거짓양성률은 ROC 곡선의 x축입니다.

특징

#fundamentals

머신러닝 모델에 대한 입력 변수입니다. 는 하나 이상의 특성으로 구성됩니다. 예를 들어 기상 조건이 학생의 시험 점수에 미치는 영향을 파악하도록 모델을 학습시킨다고 가정해 보겠습니다. 다음 표에는 세 가지 예가 나와 있으며, 각 예시에는 3개의 특성과 1개의 라벨이 포함됩니다.

기능 라벨
강도 습도 압력 테스트 점수
15 47 998 92
19 34 1020 84
18 92 1012 87

라벨과 대비되는 개념입니다.

특성 교차

#fundamentals

범주형 또는 버케팅된 특성을 '교차'하여 구성되는 합성 특성입니다.

예를 들어 다음 4개 버킷 중 하나의 온도를 나타내는 '기분 예측' 모델이 있다고 가정해 보겠습니다.

  • freezing
  • chilly
  • temperate
  • warm

다음 세 가지 버킷 중 하나로 풍속을 나타냅니다.

  • still
  • light
  • windy

특성 교차가 없으면 선형 모델은 이전의 다양한 버킷 7개 각각에서 독립적으로 학습됩니다. 따라서 모델은 학습과는 별개로 freezing를 통해 학습이 이루어집니다(예: windy).

또는 온도와 풍속의 특성 교차를 만들 수 있습니다. 이 합성 특성은 다음과 같은 12개의 값을 가질 수 있습니다.

  • freezing-still
  • freezing-light
  • freezing-windy
  • chilly-still
  • chilly-light
  • chilly-windy
  • temperate-still
  • temperate-light
  • temperate-windy
  • warm-still
  • warm-light
  • warm-windy

모델은 특성 교차를 통해 freezing-windy일과 freezing-still일 사이의 기분 차이를 학습할 수 있습니다.

각 특성에 서로 다른 버킷이 많이 있는 두 특성에서 합성 특성을 만들면 특성 교차 결과로 생성되는 특성 교차는 매우 많은 조합을 갖추게 됩니다. 예를 들어 한 특성에 버킷이 1,000개이고 다른 특성에 버킷이 2,000개 있으면 결과 특성 교차에는 버킷이 2,000,000개가 됩니다.

공식적으로 교차는 데카르트 곱입니다.

특성 교차는 주로 선형 모델에 사용되며 신경망에는 거의 사용되지 않습니다.

특성 추출

#fundamentals
#TensorFlow

다음 단계가 포함된 프로세스입니다.

  1. 모델 학습에 유용할 수 있는 특성 결정
  2. 데이터 세트의 원시 데이터를 이러한 특성의 효율적인 버전으로 변환합니다.

예를 들어 temperature가 유용한 기능이라고 판단할 수 있습니다. 그런 다음 버케팅을 실험하여 모델이 다양한 temperature 범위에서 학습할 수 있는 내용을 최적화할 수 있습니다.

특성 추출을 특성 추출이라고도 합니다.

특성 세트

#fundamentals

머신러닝 모델이 학습시킬 특성 그룹입니다. 예를 들어 우편번호, 부동산 규모, 부동산 조건은 주택 가격을 예측하는 모델의 간단한 특성 세트를 구성할 수 있습니다.

특성 벡터

#fundamentals

를 구성하는 feature 값의 배열입니다. 특성 벡터는 학습추론 중에 입력됩니다. 예를 들어 두 개의 불연속 특성을 갖는 모델의 특성 벡터는 다음과 같을 수 있습니다.

[0.92, 0.56]

레이어 4개: 입력 레이어 1개, 히든 레이어 2개, 출력 레이어 1개
          입력 레이어에는 0.92 값을 포함하는 노드와 값 0.56을 포함하는 노드가 2개 포함됩니다.

각 예는 특성 벡터에 서로 다른 값을 제공하므로 다음 예의 특성 벡터는 다음과 같을 수 있습니다.

[0.73, 0.49]

특성 추출은 특성 벡터에서 특성을 표현하는 방법을 결정합니다. 예를 들어 5개의 가능한 값을 갖는 이진 범주형 특성은 원-핫 인코딩으로 표현할 수 있습니다. 이 경우 특정 예의 특징 벡터 부분은 다음과 같이 세 번째 위치에 있는 4개의 0과 1개의 1.0으로 구성됩니다.

[0.0, 0.0, 1.0, 0.0, 0.0]

또 다른 예로, 모델이 세 가지 특성으로 구성되어 있다고 가정해 보겠습니다.

  • 원-핫 인코딩으로 표현된 가능한 값 5개를 포함하는 이진 범주형 특성. 예: [0.0, 1.0, 0.0, 0.0, 0.0]
  • 원-핫 인코딩으로 표현된 가능한 값이 3개인 또 다른 바이너리 범주형 특성입니다. 예: [0.0, 0.0, 1.0]
  • 부동 소수점 특성(예: 8.3)

이 경우 각 예의 특성 벡터는 9개의 값으로 표현됩니다. 앞의 목록에 있는 예시 값이 주어지면 특성 벡터는 다음과 같습니다.

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

피드백 루프

#fundamentals

머신러닝에서 모델의 예측이 동일한 모델 또는 다른 모델의 학습 데이터에 영향을 주는 상황입니다. 예를 들어 영화를 추천하는 모델은 사람들이 보는 영화에 영향을 미치므로 이후의 영화 추천 모델도 영향을 받습니다.

G

일반화

#fundamentals

이전에 본 적이 없는 새로운 데이터를 정확하게 예측하는 모델의 능력 일반화할 수 있는 모델은 과적합된 모델과 반대입니다.

일반화 곡선

#fundamentals

학습 손실검증 손실 모두를 반복 횟수의 함수로 나타낸 도표

일반화 곡선을 사용하면 가능한 과적합을 감지할 수 있습니다. 예를 들어 다음 일반화 곡선은 검증 손실이 학습 손실보다 훨씬 커지기 때문에 과적합을 나타냅니다.

y축에 'loss' 라벨이 지정되고 x축에 '반복' 라벨이 지정된 데카르트 그래프 두 개의 그래프가 표시됩니다. 한 도표는 학습 손실을, 다른 도표는 검증 손실을 보여줍니다.
          두 도표는 비슷하게 시작하지만 학습 손실은 검증 손실보다 훨씬 낮아집니다.

경사하강법

#fundamentals

손실을 최소화하는 수학적 기법입니다. 경사하강법은 가중치편향을 반복적으로 조정하여 점차적으로 최적의 조합을 찾아 손실을 최소화합니다.

경사하강법은 머신러닝보다 훨씬 오래되었습니다.

정답

#fundamentals

현실입니다.

실제로 발생한 일입니다.

예를 들어 대학교 1학년 학생이 6년 이내에 졸업할지 여부를 예측하는 이진 분류 모델을 생각해 보겠습니다. 이 모델의 정답은 학생이 실제로 6년 이내에 졸업했는지 여부입니다.

H

히든 레이어

#fundamentals

입력 레이어 (특성)와 출력 레이어 (예측) 사이에 있는 신경망의 레이어입니다. 각 히든 레이어는 하나 이상의 뉴런으로 구성됩니다. 예를 들어 다음 신경망에는 두 개의 히든 레이어가 포함되어 있습니다. 첫 번째에는 3개의 뉴런이, 두 번째에는 2개의 뉴런이 있습니다.

레이어 4개 첫 번째 레이어는 두 개의 특성이 포함된 입력 레이어입니다. 두 번째 레이어는 뉴런 3개가 포함된 히든 레이어입니다. 세 번째 레이어는 뉴런 두 개가 포함된 히든 레이어입니다. 네 번째 레이어는 출력 레이어입니다. 각 특성은 세 개의 에지를 포함하며 각 모서리는 두 번째 레이어의 다른 뉴런을 가리킵니다. 두 번째 레이어의 각 뉴런에는 가장자리가 두 개 있으며 각 뉴런은 세 번째 레이어의 다른 뉴런을 가리킵니다. 세 번째 레이어의 각 뉴런에는 각각 출력 레이어를 가리키는 에지가 하나씩 있습니다.

심층신경망에는 둘 이상의 히든 레이어가 포함되어 있습니다. 예를 들어 위 그림은 모델에 2개의 히든 레이어가 포함되어 있으므로 심층신경망입니다.

초매개변수

#fundamentals

개발자 또는 초매개변수 조정 서비스에서 실행되는 변수는 모델 학습을 연속적으로 실행하는 동안 조정합니다. 예를 들어 학습률은 초매개변수입니다. 하나의 학습 세션 전에 학습률을 0.01로 설정할 수 있습니다. 0.01이 너무 높다고 판단되면 다음 학습 세션의 학습률을 0.003으로 설정할 수 있습니다.

반대로 매개변수는 다양한 가중치편향이며 모델이 학습 중에 학습합니다.

I

독립적이고 동일한 분포 (i.i.d)

#fundamentals

변경되지 않는 분포에서 추출한 데이터이며 각 값이 이전에 그려지지 않은 값에 의존하지 않습니다. i.i.d.는 머신러닝의 이상기체로, 유용한 수학적 구조이지만 현실에서는 거의 찾아볼 수 없습니다. 예를 들어 웹페이지 방문자 분포는 짧은 기간에 걸쳐 i.i.d.일 수 있습니다. 즉, 짧은 기간에는 분포가 변경되지 않으며 한 사람의 방문은 일반적으로 다른 사람의 방문과는 무관합니다. 그러나 이 기간을 확대하면 웹페이지 방문자 수의 계절적 차이가 나타날 수 있습니다.

비정지성도 참조하세요.

추론

#fundamentals

머신러닝에서는 학습된 모델을 라벨이 없는 예에 적용하여 예측하는 과정을 의미합니다.

통계에서 추론은 다소 다른 의미를 지닙니다. 자세한 내용은 통계적 추론에 대한 위키백과 문서를 참조하세요.

입력 레이어

#fundamentals

특징 벡터를 보유하는 신경망계층입니다. 즉, 입력 레이어는 학습 또는 추론를 제공합니다. 예를 들어 다음 신경망의 입력 레이어는 두 개의 특성으로 구성됩니다.

레이어 4개: 입력 레이어 1개, 히든 레이어 2개, 출력 레이어 1개

해석 가능성

#fundamentals

ML 모델의 추론을 이해할 수 있는 용어로 설명하거나 사람에게 제시하는 능력

예를 들어 대부분의 선형 회귀 모델은 해석 가능성이 높습니다. 각 특성에 대해 학습된 가중치만 확인하면 됩니다. 결정 포레스트는 해석 가능성도 매우 높습니다. 그러나 일부 모델의 경우 해석 가능하게 하려면 정교한 시각화가 필요합니다.

학습 해석 가능성 도구 (LIT)를 사용하여 ML 모델을 해석할 수 있습니다.

반복

#fundamentals

학습 중에 모델 매개변수(모델의 가중치편향)의 단일 업데이트. 배치 크기는 모델이 단일 반복에서 처리하는 예의 수를 결정합니다. 예를 들어 배치 크기가 20이면 모델은 매개변수를 조정하기 전에 예 20개를 처리합니다.

신경망을 학습시키는 경우 단일 반복에 다음 두 패스가 포함됩니다.

  1. 단일 배치의 손실을 평가하기 위한 정방향 패스
  2. 손실 및 학습률을 기반으로 모델의 매개변수를 조정하는 역방향 전달 (역전파).

L

L0 정규화

#fundamentals

모델에서 0이 아닌 가중치총 개수에 페널티를 주는 정규화 유형입니다. 예를 들어 0이 아닌 가중치가 11개 있는 모델은 0이 아닌 가중치가 10개인 유사한 모델에 비해 페널티를 더 많이 받습니다.

L0 정규화를 L0-norm 정규화라고도 합니다.

L1 손실

#fundamentals

실제 라벨 값과 모델에서 예측하는 값 간 차이의 절댓값을 계산하는 손실 함수. 예를 들어 5개의 로 이루어진 배치의 L1 손실은 다음과 같습니다.

예의 실제 값 모델의 예측 값 델타 절댓값
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
  8 = L1 손실

L1 손실은 L2 손실보다 이상점에 덜 민감합니다.

평균 절대 오차는 예시당 평균 L1 손실입니다.

L1 정규화

#fundamentals

가중치의 절댓값 합에 비례하여 가중치에 페널티를 주는 정규화 유형입니다. L1 정규화는 관련이 없거나 거의 관련이 없는 특성의 가중치를 정확히 0으로 만드는 데 도움이 됩니다. 가중치가 0인 특성은 모델에서 사실상 제거됩니다.

L2 정규화와 대비되는 개념입니다.

L2 손실

#fundamentals

실제 라벨 값과 모델이 예측한 값 간 차이의 제곱을 계산하는 손실 함수입니다. 예를 들어 5개의 로 이루어진 배치의 L2 손실은 다음과 같습니다.

예의 실제 값 모델의 예측 값 델타의 제곱
7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
  16 = L2 손실

L2 손실은 제곱으로 인해 이상점의 영향을 증폭시킵니다. 즉, L2 손실은 L1 손실보다 잘못된 예측에 더 강력하게 반응합니다. 예를 들어 이전 배치의 L1 손실은 16이 아닌 8입니다. 단일 이상점이 16개 중 9개를 차지합니다.

회귀 모델은 일반적으로 L2 손실을 손실 함수로 사용합니다.

평균 제곱 오차는 예시당 평균 L2 손실입니다. 제곱 손실은 L2 손실의 또 다른 이름입니다.

L2 정규화

#fundamentals

가중치의 제곱 합에 비례하여 가중치에 페널티를 주는 정규화 유형입니다. L2 정규화는 이상점 가중치 (양성 값이 높거나 음수 값이 낮은 항목)를 0이 아닌 0에 가깝게 유도하는 데 도움이 됩니다. 값이 0에 매우 가까운 특성은 모델에 남아 있지만 모델의 예측에 큰 영향을 미치지 않습니다.

L2 정규화는 선형 모델의 일반화를 항상 개선합니다.

L1 정규화와 대비되는 개념입니다.

라벨

#fundamentals

지도 머신러닝에서 의 '답' 또는 '결과' 부분입니다.

라벨이 지정된 예는 하나 이상의 특성과 라벨로 구성됩니다. 예를 들어 스팸 감지 데이터 세트에서 라벨은 '스팸' 또는 '스팸 아님'일 가능성이 높습니다. 강우 데이터 세트에서 라벨은 특정 기간 동안 내린 강우량일 수 있습니다.

라벨이 있는 예

#fundamentals

특성라벨이 하나 이상 포함된 예 예를 들어 다음 표에는 주택 평가 모델에서 라벨이 지정된 예 3개가 나와 있으며, 각 예시에는 특성 3개와 라벨 1개가 있습니다.

침실 수 욕실 수 주택 연식 주택 가격 (라벨)
3 2 15 345,000달러
2 1 72 179,000달러
4 2 34 392,000달러

지도 머신러닝에서 모델은 라벨이 지정된 예를 학습하고 라벨이 없는 예를 바탕으로 예측을 수행합니다.

라벨이 있는 예를 라벨이 지정되지 않은 예시와 대조합니다.

람다

#fundamentals

정규화율의 동의어입니다.

람다는 오버로드된 용어입니다. 여기에서는 정규화 내 용어 정의에 초점을 맞춥니다.

레이어

#fundamentals

신경망 내의 뉴런 집합입니다. 세 가지 일반적인 레이어 유형은 다음과 같습니다.

다음 그림은 입력 레이어 1개, 히든 레이어 2개, 출력 레이어 1개가 있는 신경망을 보여줍니다.

입력 레이어 1개, 히든 레이어 2개, 출력 레이어 1개가 있는 신경망입니다. 입력 레이어는 두 가지 특성으로 구성됩니다. 첫 번째 히든 레이어는 뉴런 3개로 구성되고 두 번째 히든 레이어는 뉴런 2개로 구성됩니다. 출력 레이어는 단일 노드로 구성됩니다.

TensorFlow에서 레이어텐서 및 구성 옵션을 입력으로 사용하고 다른 텐서를 출력으로 생성하는 Python 함수이기도 합니다.

학습률

#fundamentals

경사하강법 알고리즘에 각 반복에서 가중치와 편향을 어느 정도 강하게 조정해야 하는지 알려주는 부동 소수점 수입니다. 예를 들어 학습률이 0.3이면 0.1인 학습률보다 가중치와 편향이 3배 더 잘 조정됩니다.

학습률은 핵심적인 초매개변수입니다. 학습률을 너무 낮게 설정하면 학습 시간이 너무 오래 걸립니다. 학습률을 너무 높게 설정하면 경사하강법에서 수렴에 도달하는 데 문제가 발생하는 경우가 많습니다.

선형

#fundamentals

덧셈과 곱셈을 통해서만 표현할 수 있는 둘 이상의 변수 간의 관계입니다.

선형 관계의 도표는 선입니다.

비선형과 대비되는 개념입니다.

선형 모델

#fundamentals

modelmodel당 하나의 model를 할당하여 model을 수행합니다. (선형 모델에는 편향도 포함됩니다.) 반면에 심층 모델의 예측과 특성의 관계는 일반적으로 비선형입니다.

선형 모델은 일반적으로 심층 모델보다 학습하기 더 쉽고 해석 가능성이 높습니다. 그러나 심층 모델은 특성 복잡한 관계를 학습할 수 있습니다.

선형 회귀로지스틱 회귀는 선형 모델의 두 가지 유형입니다.

선형 회귀

#fundamentals

다음 두 조건에 모두 해당하는 머신러닝 모델 유형입니다.

  • 모델은 선형 모델입니다.
  • 예측은 부동 소수점 값입니다. (이것이 선형 회귀회귀 부분입니다.)

선형 회귀와 로지스틱 회귀를 대비합니다. 또한 회귀와 분류를 대조합니다.

로지스틱 회귀

#fundamentals

확률을 예측하는 회귀 모델의 한 유형입니다. 로지스틱 회귀 모델에는 다음과 같은 특성이 있습니다.

  • 라벨은 범주형입니다. 로지스틱 회귀라는 용어는 일반적으로 바이너리 로지스틱 회귀를 나타냅니다. 즉, 가능한 값이 두 개 있는 라벨의 확률을 계산하는 모델을 가리킵니다. 덜 일반적인 변이인 다항 로지스틱 회귀는 가능한 값이 3개 이상인 라벨의 확률을 계산합니다.
  • 학습 중 손실 함수는 로그 손실입니다. 가능한 값이 3개 이상인 라벨의 경우 여러 로그 손실 단위를 병렬로 배치할 수 있습니다.
  • 이 모델에는 심층신경망이 아닌 선형 아키텍처가 있습니다. 하지만 이 정의의 나머지 부분은 카테고리 라벨의 확률을 예측하는 심층 모델에도 적용됩니다.

예를 들어 입력 이메일이 스팸일 가능성 또는 스팸이 아닐 확률을 계산하는 로지스틱 회귀 모델이 있다고 가정해 보겠습니다. 추론 중에 모델이 0.72를 예측한다고 가정합니다. 따라서 모델은 다음을 추정합니다.

  • 이메일이 스팸일 확률은 72% 입니다.
  • 이메일이 스팸이 아닐 가능성은 28% 입니다.

로지스틱 회귀 모델은 다음과 같은 2단계 아키텍처를 사용합니다.

  1. 이 모델은 입력 특성의 선형 함수를 적용하여 원시 예측 (y')을 생성합니다.
  2. 모델은 이 원시 예측을 시그모이드 함수에 대한 입력으로 사용하고, 이 함수는 원시 예측을 0과 1 사이의 값으로 변환합니다(0과 1 제외).

여느 회귀 모델과 마찬가지로 로지스틱 회귀 모델은 숫자를 예측합니다. 하지만 이 숫자는 일반적으로 다음과 같이 이진 분류 모델의 일부가 됩니다.

  • 예측된 숫자가 분류 임곗값보다 크면 이진 분류 모델은 포지티브 클래스를 예측합니다.
  • 예측된 숫자가 분류 임계값보다 작으면 이진 분류 모델이 네거티브 클래스를 예측합니다.

로그 손실

#fundamentals

바이너리 로지스틱 회귀에 사용되는 손실 함수입니다.

로그 오즈

#fundamentals

어떤 사건이 일어날 확률의 로그입니다.

손실

#fundamentals

지도 모델학습 중에 모델의 예측라벨과 얼마나 차이가 나는지를 측정합니다.

손실 함수는 손실을 계산합니다.

손실 곡선

#fundamentals

학습 반복 횟수에 따른 손실 도표 다음 도표는 일반적인 손실 곡선을 보여줍니다.

손실과 학습 반복의 데카르트 그래프. 초기 반복에서 손실이 급격하게 감소한 후 점진적인 감소를 보였다가 최종 반복에서는 기울기가 평평한 모습을 보여줍니다.

손실 곡선을 사용하면 모델이 수렴 또는 과적합되는 시점을 판단할 수 있습니다.

손실 곡선은 다음 유형의 손실을 모두 표시할 수 있습니다.

일반화 곡선도 참고하세요.

손실 함수

#fundamentals

학습 또는 테스트 중에 예시 배치의 손실을 계산하는 수학적 함수입니다. 손실 함수는 잘못된 예측을 하는 모델보다 좋은 예측을 하는 모델에 더 낮은 손실을 반환합니다.

학습의 목표는 일반적으로 손실 함수가 반환하는 손실을 최소화하는 것입니다.

다양한 종류의 손실 함수가 존재합니다. 빌드할 모델의 종류에 맞는 적절한 손실 함수를 선택합니다. 예를 들면 다음과 같습니다.

M

머신러닝

#fundamentals

입력 데이터에서 모델학습하는 프로그램 또는 시스템입니다. 학습된 모델은 모델을 학습시키는 데 사용된 것과 동일한 분포에서 추출된 새로운 (이전에 본 적 없음) 데이터로 유용한 예측을 수행할 수 있습니다.

머신러닝은 이러한 프로그램 또는 시스템과 관련된 연구 분야를 의미하기도 합니다.

다수 범주

#fundamentals

클래스 불균형 데이터 세트보다 더 일반적으로 사용되는 라벨입니다. 예를 들어 음성 라벨이 99%, 양성 라벨이 1% 인 데이터 세트의 경우 음성 라벨이 다수 클래스입니다.

다수 범주와 대비되는 개념입니다.

미니 배치

#fundamentals

반복으로 처리되는 배치의 무작위로 선택된 소규모 하위 집합입니다. 미니 배치의 배치 크기는 일반적으로 예 10~1,000개입니다.

예를 들어 전체 학습 세트 (전체 배치)가 1,000개의 예로 구성되어 있다고 가정해 보겠습니다. 또한 각 미니 배치의 배치 크기를 20으로 설정했다고 가정해 보겠습니다. 따라서 반복할 때마다 예시 1,000개 중 무작위 20개에서 손실을 구한 다음 그에 따라 가중치편향을 조정합니다.

전체 배치의 모든 예의 손실보다 미니 배치의 손실을 계산하는 것이 훨씬 더 효율적입니다.

소수 범주

#fundamentals

클래스 불균형 데이터 세트에서 덜 일반적인 라벨입니다. 예를 들어 음성 라벨이 99%, 양성 라벨이 1% 인 데이터 세트의 경우 양성 라벨은 소수 범주입니다.

주식 클래스와 대비되는 개념입니다.

model

#fundamentals

일반적으로 입력 데이터를 처리하고 출력을 반환하는 모든 수학적 구조입니다. 다르게 표현하자면, 모델은 시스템이 예측하는 데 필요한 매개변수 및 구조의 집합입니다. 지도 머신러닝에서 모델은 를 입력으로 사용하고 예측을 출력으로 추론합니다. 지도 머신러닝 내에서 모델은 약간 다릅니다. 예를 들면 다음과 같습니다.

  • 선형 회귀 모델은 가중치편향으로 구성됩니다.
  • 신경망 모델은 다음으로 구성됩니다.
    • 히든 레이어 집합으로, 각 레이어에는 하나 이상의 뉴런이 포함됩니다.
    • 각 뉴런과 관련된 가중치 및 편향입니다.
  • 결정 트리 모델은 다음으로 구성됩니다.
    • 나무의 모양, 즉 조건과 잎이 연결되는 패턴입니다.
    • 상황과 출근길입니다.

모델을 저장, 복원하거나 모델 사본을 만들 수 있습니다.

비지도 머신러닝은 또한 일반적으로 입력 예시를 가장 적절한 클러스터에 매핑할 수 있는 함수인 모델을 생성합니다.

다중 클래스 분류

#fundamentals

지도 학습에서 데이터 세트에 3개 이상의 클래스가 포함된 분류 문제입니다. 예를 들어 Iris 데이터세트의 라벨은 다음 세 가지 클래스 중 하나여야 합니다.

  • 아이리스 세토사
  • 아이리스 버지니카
  • 아이리스 버시컬러

새로운 예에서 Iris 유형을 예측하는 Iris 데이터세트로 학습된 모델이 다중 클래스 분류를 수행하고 있습니다.

반면 정확히 두 클래스를 구분하는 분류 문제는 이진 분류 모델입니다. 예를 들어 스팸 또는 스팸 아님을 예측하는 이메일 모델은 이진 분류 모델입니다.

클러스터링 문제에서 다중 클래스 분류는 3개 이상의 클러스터를 의미합니다.

구매 불가

네거티브 클래스

#fundamentals

이진 분류에서는 한 클래스를 포지티브로, 다른 클래스를 음성이라고 합니다. 포지티브 클래스는 모델이 테스트하는 대상 또는 이벤트이고 네거티브 클래스는 다른 가능성입니다. 예를 들면 다음과 같습니다.

  • 의료 검사의 네거티브 클래스는 '종양 아님'일 수 있습니다.
  • 이메일 분류기의 네거티브 클래스는 '스팸 아님'일 수 있습니다.

포지티브 클래스와 대비되는 개념입니다.

출력은

#fundamentals

model가 하나 이상 포함된 model 심층신경망은 두 개 이상의 히든 레이어를 포함하는 신경망의 한 유형입니다. 다음 다이어그램은 2개의 히든 레이어가 포함된 심층신경망의 예입니다.

입력 레이어, 히든 레이어 2개, 출력 레이어 1개가 있는 신경망입니다.

신경망의 각 뉴런은 다음 레이어의 모든 노드에 연결됩니다. 예를 들어 앞의 다이어그램에서 첫 번째 히든 레이어의 3개 뉴런은 각각 두 번째 히든 레이어의 두 뉴런 모두에 개별적으로 연결됩니다.

컴퓨터에 구현된 신경망은 뇌 및 기타 신경계의 신경망과 구별하기 위해 인공 신경망이라고도 합니다.

일부 신경망은 서로 다른 특성과 라벨 간의 매우 복잡한 비선형 관계를 흉내낼 수 있습니다.

컨볼루셔널 신경망순환 신경망도 참고하세요.

뉴런

#fundamentals

머신러닝에서 신경망히든 레이어 내에 있는 고유한 단위입니다. 각 뉴런은 다음과 같은 두 단계의 작업을 실행합니다.

  1. 입력 값의 가중치 합계를 해당 가중치와 곱한 값을 계산합니다.
  2. 가중치가 적용된 합계를 활성화 함수에 대한 입력으로 전달합니다.

첫 번째 히든 레이어의 뉴런은 입력 레이어의 특성 값에서 입력을 받습니다. 첫 번째 히든 레이어 이후의 모든 히든 레이어는 이전 히든 레이어의 뉴런으로부터 입력을 받습니다. 예를 들어 두 번째 히든 레이어의 뉴런은 첫 번째 히든 레이어의 뉴런으로부터 입력을 받습니다.

다음 그림은 2개의 뉴런과 그 입력을 강조표시합니다.

입력 레이어, 히든 레이어 2개, 출력 레이어 1개가 있는 신경망입니다. 두 개의 뉴런이 강조표시되어 있습니다. 하나는 첫 번째 히든 레이어에, 다른 하나는 두 번째 히든 레이어에 있습니다. 첫 번째 히든 레이어에서 강조표시된 뉴런은 입력 레이어의 두 특성에서 입력을 수신합니다. 두 번째 히든 레이어에서 강조표시된 뉴런은 첫 번째 히든 레이어의 뉴런 3개 각각에서 입력을 수신합니다.

신경망의 뉴런은 뇌와 신경계의 다른 부분에 있는 뉴런의 행동을 모방합니다.

노드 (신경망)

#fundamentals

히든 레이어뉴런입니다.

비선형

#fundamentals

덧셈과 곱셈을 통해서만 표현할 수 없는 둘 이상의 변수 간의 관계입니다. 선형 관계는 선으로 표현할 수 있지만, 비선형 관계는 선으로 표현할 수 없습니다. 예를 들어 각각 단일 특성과 단일 라벨을 연결하는 두 개의 모델을 생각해 보세요. 왼쪽 모델은 선형이고 오른쪽 모델은 비선형입니다.

두 개의 도표. 한 도표는 선형이므로 이는 선형 관계입니다.
          다른 플롯은 곡선이므로 비선형 관계입니다.

비정상성

#fundamentals

일반적으로 시간 하나 이상의 측정기준에서 값이 변경되는 특성입니다. 예를 들어 다음과 같은 비정지성을 살펴보겠습니다.

  • 특정 상점에서 판매하는 수영복의 수는 계절에 따라 다릅니다.
  • 특정 지역에서 수확된 특정 과일의 양은 연중 대부분 0이지만 짧은 기간 동안은 대량입니다.
  • 기후 변화로 인해 연간 평균 기온이 변하고 있습니다.

정상성과 대비되는 개념입니다.

정규화

#fundamentals

변수의 실제 값 범위를 다음과 같은 표준 값 범위로 변환하는 프로세스입니다.

  • -1~+1
  • 0~1
  • 정규 분포

예를 들어 특정 특성의 실제 값 범위가 800에서 2,400이라고 가정합니다. 특성 추출의 일환으로 실제 값을 -1에서 +1과 같은 표준 범위로 정규화할 수 있습니다.

정규화는 특성 추출에서 일반적인 작업입니다. 일반적으로 특성 벡터의 모든 숫자 특성이 거의 동일한 범위를 가질 때 모델은 더 빠르게 학습하고 더 나은 예측을 생성합니다.

수치 데이터

#fundamentals

정수 또는 실수로 표현된 특성입니다. 예를 들어 주택 평가 모델은 주택의 크기 (제곱피트 또는 제곱미터)를 수치 데이터로 나타낼 수 있습니다. 특성을 숫자 데이터로 표현한다는 것은 특성 값과 라벨과 수학적 관계가 있음을 의미합니다. 즉, 주택의 제곱미터 넓이는 주택의 가격과 수학적 관계를 가질 가능성이 높습니다.

모든 정수 데이터를 수치 데이터로 표현해야 하는 것은 아닙니다. 예를 들어 세계 일부 지역의 우편번호는 정수이지만 모델에서 정수 우편번호를 숫자 데이터로 표현해서는 안 됩니다. 이는 우편번호가 20000인 경우 우편번호가 10,000인 경우의 두 배 (또는 절반)는 아니기 때문입니다. 또한 우편번호는 부동산 가치와 상관관계가 있긴 하지만 우편번호가 20000인 부동산 가치가 우편번호가 10000인 부동산 가치보다 두 배 더 높다고 가정할 수는 없습니다. 대신 우편번호는 범주형 데이터로 표현해야 합니다.

숫자 특성을 연속 특성이라고도 합니다.

O

오프라인

#fundamentals

정적의 동의어입니다.

오프라인 추론

#fundamentals

모델에서 예측 배치를 생성한 후 이러한 예측을 캐시 (저장)하는 프로세스입니다. 그러면 앱은 모델을 다시 실행하지 않고 캐시에서 원하는 예측에 액세스할 수 있습니다.

예를 들어 4시간마다 한 번씩 지역 일기예보를 생성하는 모델이 있다고 가정해 보겠습니다. 각 모델이 실행된 후 시스템은 모든 현지 일기 예보를 캐시합니다. 날씨 앱은 캐시에서 예보를 검색합니다.

오프라인 추론은 정적 추론이라고도 합니다.

온라인 추론과 대비되는 개념입니다.

원-핫 인코딩

#fundamentals

범주형 데이터를 벡터로 표현:

  • 한 요소는 1로 설정됩니다.
  • 다른 요소는 모두 0으로 설정됩니다.

원-핫 인코딩은 가능한 값의 유한 집합을 가진 문자열이나 식별자를 나타내는 데 흔히 사용됩니다. 예를 들어 Scandinavia이라는 특정 카테고리 특성에 가능한 값이 5개 있다고 가정해 보겠습니다.

  • "덴마크"
  • '스웨덴'
  • "노르웨이"
  • "핀란드"
  • "아이슬란드"

원-핫 인코딩은 5개의 값 각각을 다음과 같이 나타낼 수 있습니다.

country 벡터
"덴마크" 1 0 0 0 0
'스웨덴' 0 1 0 0 0
"노르웨이" 0 0 1 0 0
"핀란드" 0 0 0 1 0
"아이슬란드" 0 0 0 0 1

원-핫 인코딩 덕분에 모델은 5개 국가 각각을 기반으로 서로 다른 연결을 학습할 수 있습니다.

특성을 숫자 데이터로 표현하는 것은 원-핫 인코딩의 대안입니다. 안타깝게도 스칸디나비아 국가를 숫자로 나타내는 것은 좋은 선택이 아닙니다. 예를 들어 다음과 같은 숫자 표현을 고려해 보세요.

  • '덴마크'가 0인 경우
  • 'Sweden'은 1입니다.
  • '노르웨이'는 2
  • '핀란드'는 3입니다.
  • '아이슬란드'는 4입니다.

숫자 인코딩을 사용하면 모델이 원시 숫자를 수학적으로 해석하고 해당 숫자에 대한 학습을 시도합니다. 하지만 아이슬란드는 노르웨이보다 2배 (또는 절반) 더 높기 때문에 아이슬란드 모델은 이상한 결론에 이르게 됩니다.

일대다

#fundamentals

클래스 N개의 분류 문제가 있는 경우, 가능한 각 결과에 대해 하나의 이진 분류기인 N개의 개별 이진 분류기로 구성된 솔루션입니다. 예를 들어 예를 동물, 식물 또는 광물로 분류하는 모델의 경우 일대다 솔루션은 다음과 같은 세 가지 이진 분류자를 제공합니다.

  • 동물 vs. 동물 아님
  • 채소 vs. 식물 아님
  • 광물 vs. 광물 아님

online

#fundamentals

동적의 동의어입니다.

온라인 추론

#fundamentals

요청 시 예측을 생성합니다. 예를 들어 앱이 모델에 입력을 전달하고 예측 요청을 실행한다고 가정해 보겠습니다. 온라인 추론을 사용하는 시스템은 모델을 실행하고 예측을 앱에 반환하는 방식으로 요청에 응답합니다.

오프라인 추론과 대비되는 개념입니다.

출력 레이어

#fundamentals

신경망의 '최종' 레이어입니다. 출력 레이어에는 예측이 포함됩니다.

다음 그림은 입력 레이어, 히든 레이어 2개, 출력 레이어가 있는 작은 심층신경망을 보여줍니다.

입력 레이어 1개, 히든 레이어 2개, 출력 레이어 1개가 있는 신경망입니다. 입력 레이어는 두 가지 특성으로 구성됩니다. 첫 번째 히든 레이어는 뉴런 3개로 구성되고 두 번째 히든 레이어는 뉴런 2개로 구성됩니다. 출력 레이어는 단일 노드로 구성됩니다.

과적합

#fundamentals

model와 너무 가깝게 일치하는 model을 만들어 모델이 새 데이터를 올바르게 예측하지 못하는 경우

정규화는 과적합을 줄일 수 있습니다. 크고 다양한 학습 세트에 대한 학습을 통해 과적합을 줄일 수도 있습니다.

P

pandas

#fundamentals

numpy를 기반으로 빌드된 열 중심의 데이터 분석 API입니다. TensorFlow를 비롯한 여러 머신러닝 프레임워크는 pandas 데이터 구조를 입력으로 지원합니다. 자세한 내용은 pandas 문서를 참조하세요.

매개변수

#fundamentals

모델이 학습 중에 학습하는 가중치편향입니다. 예를 들어 선형 회귀 모델에서 매개변수는 다음 수식의 편향 (b)과 모든 가중치 (w1, w2 등)로 구성됩니다.

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

반대로 초매개변수사용자 (또는 초매개변수 전환 서비스)가 모델에 제공하는 값입니다. 예를 들어 학습률은 초매개변수입니다.

포지티브 클래스

#fundamentals

테스트 중인 클래스입니다.

예를 들어 암 모델의 포지티브 클래스는 '종양'일 수 있습니다. 이메일 분류기의 포지티브 클래스는 '스팸'일 수 있습니다.

네거티브 클래스와 대비되는 개념입니다.

후처리

#fairness
#fundamentals

모델 실행 후에 모델의 출력을 조정합니다. 후처리를 사용하면 모델 자체를 수정하지 않고도 공정성 제약조건을 적용할 수 있습니다.

예를 들어 일부 속성에 대해 참양성률참양성률이 동일한지 확인하여 분류 임곗값을 설정하여 이진 분류기에 후처리를 적용할 수 있습니다.

예측

#fundamentals

모델의 출력입니다. 예를 들면 다음과 같습니다.

  • 이진 분류 모델의 예측은 포지티브 클래스 또는 네거티브 클래스 중 하나입니다.
  • 다중 클래스 분류 모델의 예측은 하나의 클래스입니다.
  • 선형 회귀 모델의 예측은 숫자입니다.

프록시 라벨

#fundamentals

데이터 세트에서 직접 사용할 수 없는 라벨을 추정하는 데 사용되는 데이터입니다.

예를 들어 직원의 스트레스 수준을 예측하도록 모델을 학습시켜야 한다고 가정해 보겠습니다. 데이터 세트에 많은 예측 특성이 포함되어 있지만 스트레스 수준이라는 라벨이 없습니다. 당황하지 말고, 스트레스 수준의 프록시 라벨로 '직장 사고'를 선택합니다. 심한 스트레스를 받는 직원은 차분한 분위기의 직원보다 사고에 더 많이 노출되기 때문입니다. 아니면 어떻게 해야 할까요? 직장 내 사고가 실제로 여러 가지 이유로 오르내릴 수 있습니다.

두 번째 예로, is it raining?을 데이터 세트의 부울 라벨로 지정하려고 하지만 데이터 세트에 비 데이터가 포함되어 있지 않다고 가정해 보겠습니다. 사진을 사용할 수 있는 경우 우산을 들고 있는 사람의 사진을 is it raining?에 대한 프록시 라벨로 설정할 수 있습니다. 좋은 프록시 라벨인가요? 아마도 일부 문화권의 사람들은 비보다 햇빛으로부터 보호하기 위해 우산을 휴대할 가능성이 더 높습니다.

프록시 라벨은 완벽하지 않은 경우가 많습니다. 가능하면 프록시 라벨 대신 실제 라벨을 선택하세요. 즉, 실제 라벨이 없으면 프록시 라벨을 매우 신중하게 선택하고 가장 적당하지 않은 프록시 라벨 후보를 선택합니다.

R

평가자

#fundamentals

예시에 대한 라벨을 제공하는 사람입니다. '애노테이터'는 평가자의 다른 이름입니다.

정류 선형 유닛 (ReLU)

#fundamentals

다음 동작을 취하는 활성화 함수입니다.

  • 입력이 음수이거나 0이면 출력은 0입니다.
  • 입력이 양수이면 출력은 입력과 같습니다.

예를 들면 다음과 같습니다.

  • 입력이 -3이면 출력은 0입니다.
  • 입력이 +3이면 출력은 3.0입니다.

다음은 ReLU의 도표입니다.

두 선의 데카르트 도표 첫 번째 줄은 상수 y 값 0을 가지며 x축을 따라 -infinity,0에서 0, -0으로 이어집니다.
          두 번째 줄은 0,0에서 시작합니다. 이 선의 기울기는 +1이므로
          0,0에서 +무한대,+무한대까지 이어집니다.

ReLU는 매우 많이 사용되는 활성화 함수입니다. ReLU는 단순한 동작에도 불구하고 여전히 신경망이 특성라벨 간의 비선형 관계를 학습할 수 있도록 지원합니다.

회귀 모델

#fundamentals

비공식적으로 수치 예측을 생성하는 모델입니다. 반면에 분류 모델은 클래스 예측을 생성합니다. 예를 들어 다음은 모두 회귀 모델입니다.

  • 423,000유로와 같이 특정 주택의 가격을 예측하는 모델입니다.
  • 특정 트리의 기대 수명(예: 23.2년)을 예측하는 모델입니다.
  • 앞으로 6시간 동안 특정 도시의 강수량(예: 0.18인치)을 예측하는 모델입니다.

두 가지 일반적인 회귀 모델 유형은 다음과 같습니다.

  • 선형 회귀: 특성에 가장 적합한 라벨 값을 찾습니다.
  • 로지스틱 회귀: 시스템에서 일반적으로 클래스 예측에 매핑하는 0.0과 1.0 사이의 확률을 생성합니다.

수치 예측을 출력하는 모든 모델이 회귀 모델인 것은 아닙니다. 경우에 따라 숫자 예측은 실제로 숫자 클래스 이름을 갖는 분류 모델일 뿐입니다. 예를 들어 숫자로 된 우편번호를 예측하는 모델은 회귀 모델이 아니라 분류 모델입니다.

정규화

#fundamentals

과적합을 줄이는 모든 메커니즘 인기 있는 정규화 유형은 다음과 같습니다.

정규화는 모델의 복잡도에 대한 페널티로 정의할 수도 있습니다.

정규화율

#fundamentals

학습 중 정규화의 상대적 중요도를 지정하는 숫자입니다. 정규화율을 높이면 과적합이 감소하지만 모델의 예측 성능이 감소할 수 있습니다. 반대로 정규화율을 줄이거나 생략하면 과적합이 증가합니다.

ReLU

#fundamentals

정류 선형 유닛의 약어입니다.

검색 보강 생성

#fundamentals

대규모 언어 모델 (LLM) 애플리케이션에서 일반적으로 사용되는 소프트웨어 아키텍처입니다. 검색 보강 세대를 사용하는 일반적인 동기는 다음과 같습니다.

  • 모델에서 생성된 응답의 사실적 정확성 향상
  • 모델이 학습에 사용하지 않은 지식에 액세스할 수 있도록 권한 부여
  • 모델이 사용하는 지식 변경
  • 모델의 출처를 인용하도록 설정

예를 들어 화학 앱에서 PaLM API를 사용하여 사용자 쿼리와 관련된 요약을 생성한다고 가정해 보겠습니다. 앱의 백엔드가 쿼리를 수신하면 백엔드는 먼저 사용자의 쿼리와 관련된 데이터를 검색 ('검색')하고 관련 화학 데이터를 사용자의 쿼리에 추가 ('보강')하고 추가된 데이터를 기반으로 요약을 만들도록 LLM에 지시합니다.

수신자 조작 특성 곡선 (ROC)

#fundamentals

이진 분류의 다양한 분류 임계값에 대한 참양성률거짓양성률의 그래프

ROC 곡선의 모양은 이진 분류 모델이 네거티브 클래스와 포지티브 클래스를 구분하는 능력을 나타냅니다. 예를 들어 이진 분류 모델이 모든 포지티브 클래스에서 모든 네거티브 클래스를 완벽하게 분리한다고 가정해 보겠습니다.

오른쪽에는 긍정적 예 8개가 있고 왼쪽에 7개의 부정 예가 있는 숫자 선입니다.

위 모델의 ROC 곡선은 다음과 같습니다.

ROC 곡선입니다. x축은 거짓양성률이고 y축은 참양성률입니다. 곡선은 반전된 L 모양입니다. 곡선은 (0.0,0.0)에서 시작하여 (0.0,1.0)까지 수직으로 올라갑니다. 그런 다음 곡선이 (0.0,1.0)에서 (1.0,1.0)으로 이동합니다.

반대로 다음 그림은 네거티브 클래스와 포지티브 클래스를 전혀 구분할 수 없는 심각한 모델의 원시 로지스틱 회귀 값을 그래프로 보여줍니다.

양수 예와 네거티브 클래스가 완전히 뒤섞인 숫자 선입니다.

이 모델의 ROC 곡선은 다음과 같습니다.

(0.0,0.0)에서 (1.0,1.0)까지의
          직선인 ROC 곡선입니다.

한편 실제 세계에서는 대부분의 이진 분류 모델은 포지티브 클래스와 네거티브 클래스를 어느 정도 분리하지만 일반적으로 완벽하게 구분하지는 않습니다. 따라서 일반적인 ROC 곡선은 두 극단 사이의 어딘가에 위치합니다.

ROC 곡선입니다. x축은 거짓양성률이고 y축은 참양성률입니다. ROC 곡선은 나침반 점을 서쪽에서 북쪽으로 가로지르는 흔들리는
          원호를 추정합니다.

이론적으로 (0.0,1.0)에 가장 가까운 ROC 곡선의 점은 이상적인 분류 임곗값을 나타냅니다. 그러나 이상적인 분류 임곗값 선택에 영향을 미치는 다른 실제 문제도 있습니다. 예를 들어 거짓음성은 거짓양성보다 훨씬 더 고통스러울 수 있습니다.

AUC라는 숫자 측정항목은 ROC 곡선을 단일 부동 소수점 값으로 요약합니다.

평균 제곱근 오차(RMSE)

#fundamentals

평균 제곱 오차의 제곱근입니다.

S

시그모이드 함수

#fundamentals

입력 값을 제한된 범위(일반적으로 0~1 또는 -1~+1)로 '좁히는' 수학 함수입니다. 즉, 어떤 숫자 (2, 100만, 음의 십억 등)를 시그모이드에 전달할 수 있으며 출력은 여전히 제한된 범위에 포함됩니다. 시그모이드 활성화 함수의 도표는 다음과 같습니다.

도메인 -무한대에서 +양까지의 x값을 포함하는 2차원 곡선 도표이고 y 값은 거의 0에서 거의 1까지의 범위에 걸쳐 있습니다. x가 0인 경우 y는 0.5입니다. 곡선의 기울기는 항상 양수이며 0,0.5에서 가장 높은 기울기를 나타내며 x의 절댓값이 증가하면 기울기가 점차 작아집니다.

시그모이드 함수는 머신러닝에서 다음과 같이 다양하게 사용됩니다.

소프트맥스

#fundamentals

다중 클래스 분류 모델에서 가능한 각 클래스의 확률을 결정하는 함수입니다. 확률의 합은 정확히 1.0입니다. 예를 들어 다음 표는 소프트맥스가 다양한 확률을 분산하는 방식을 보여줍니다.

이미지 유형 확률
.85
Cat .13
0.02

소프트맥스는 전체 소프트맥스라고도 합니다.

후보 샘플링과 대비되는 개념입니다.

희소 특성(sparse feature)

#language
#fundamentals

대부분의 값이 0이거나 비어 있는 특성입니다. 예를 들어 1 값 하나와 0 값 100만 개를 포함하는 특성은 희소입니다. 반대로 밀집 특성은 대부분 0이나 비어 있지 않은 값을 갖습니다.

머신러닝에서 놀랍게도 희소 특성이 많은 특성입니다. 범주형 특성은 일반적으로 희소 특성입니다. 예를 들어 숲에서 사용할 수 있는 300종의 수종 중에서 하나의 예에서는 단풍나무만 식별할 수 있습니다. 또는 동영상 라이브러리에 있는 수백만 개의 동영상 중에서 하나의 예가 '카사블랑카'만 식별될 수도 있습니다.

모델에서는 일반적으로 원-핫 인코딩을 사용하여 희소 특성을 나타냅니다. 원-핫 인코딩이 큰 경우 효율성을 높이기 위해 원-핫 인코딩 위에 임베딩 레이어를 배치할 수 있습니다.

희소 표현

#language
#fundamentals

희소 특성에 0이 아닌 요소의 위치만 저장합니다.

예를 들어 species이라는 범주형 특성이 특정 포레스트에 있는 36가지 트리 종을 식별한다고 가정해 보겠습니다. 또한 각 는 단일 종만 식별한다고 가정합니다.

원-핫 벡터를 사용하여 각 예에서 수종을 나타낼 수 있습니다. 원-핫 벡터는 단일 1 (이 예에서 특정 수종을 나타내기 위한) 및 35개의 0 (이 예에서는 아님) 35개의 수종을 나타냅니다. 따라서 maple의 원-핫 표현은 다음과 같을 수 있습니다.

위치 0에서 23까지는 값 0을, 위치 24는 값 1을, 위치 25부터 35까지는 값 0을 갖는 벡터입니다.

또는 희소 표현은 특정 종의 위치를 단순히 식별합니다. maple가 24 위치에 있다면 maple의 희소 표현은 다음과 같습니다.

24

희소 표현은 원-핫 표현보다 훨씬 더 간결합니다.

희소 벡터

#fundamentals

값이 대부분 0인 벡터입니다. 희소 특성희소성도 참고하세요.

제곱 손실

#fundamentals

L2 손실의 동의어입니다.

정적

#fundamentals

지속적인 작업이 아니라 한 번만 수행하면 됩니다. 정적오프라인은 동의어입니다. 다음은 머신러닝에서 정적오프라인의 일반적인 용도입니다.

  • 정적 모델 (또는 오프라인 모델)은 한 번 학습된 후 일정 시간 동안 사용되는 모델입니다.
  • 정적 학습 (또는 오프라인 학습)은 정적 모델을 학습시키는 프로세스입니다.
  • 정적 추론 (또는 오프라인 추론)은 모델이 한 번에 일괄 예측을 생성하는 프로세스입니다.

동적과 대비되는 개념입니다.

정적 추론

#fundamentals

오프라인 추론의 동의어입니다.

정상성

#fundamentals

일반적으로 시간 하나 이상의 측정기준에서 값이 변경되지 않는 특성입니다. 예를 들어 2021년과 2023년에 값이 거의 같은 특성은 정상성을 나타냅니다.

실제로 정상성을 보이는 지형지물은 거의 없습니다. 안정성 (예: 해수면)과 동의어인 특성도 시간이 지나면서 변화합니다.

비정상성과 대비되는 개념입니다.

확률적 경사하강법 (SGD)

#fundamentals

배치 크기가 1인 경사하강법 알고리즘입니다. 즉, SGD는 학습 세트에서 무작위로 선택된 단일 예를 기반으로 학습합니다.

지도 머신러닝

#fundamentals

model 및 이에 상응하는 model에서 model을 학습시킵니다. 지도 머신러닝은 일련의 질문과 이에 상응하는 답변을 연구하여 주제를 학습하는 것과 유사합니다. 질문과 답변 간의 매핑을 마스터하고 나면 학생은 동일한 주제에 대해 이전에 본 적이 없는 새로운 질문에 대한 답을 제시할 수 있습니다.

비지도 머신러닝과 비교해 보세요.

합성 특성

#fundamentals

입력 특성 중에는 없지만 하나 이상의 입력 특성으로부터 조합되는 특성입니다. 합성 특성을 만드는 메서드에는 다음이 포함됩니다.

  • 연속 특성을 범위 빈으로 버케팅합니다.
  • 특성 교차를 생성합니다.
  • 하나의 특성 값에 다른 특성 값 또는 그 자체를 곱하거나 나눕니다. 예를 들어 ab가 입력 특성인 경우 합성 특성의 예는 다음과 같습니다.
    • ab
    • a2
  • 특성 값에 초월 함수 적용 예를 들어 c가 입력 특성인 경우 합성 특성의 예는 다음과 같습니다.
    • sin(c)
    • ln(c)

정규화 또는 조정만으로 생성된 특성은 합성 특성으로 간주되지 않습니다.

T

테스트 손실

#fundamentals

테스트 세트에 대한 모델의 손실을 나타내는 측정항목입니다. model을 빌드할 때 일반적으로 테스트 손실을 최소화하려고 합니다. 낮은 테스트 손실이 낮은 학습 손실 또는 낮은 검증 손실보다 강력한 품질 신호이기 때문입니다.

테스트 손실과 학습 손실 또는 검증 손실 사이의 큰 차이는 정규화율을 높여야 한다고 시사하는 경우가 있습니다.

학습

#fundamentals

모델을 구성하는 이상적인 매개변수 (가중치 및 편향)를 결정하는 프로세스입니다. 학습 중에 시스템은 를 읽고 점진적으로 매개변수를 조정합니다. 학습에서는 각 예를 몇 번에서 수십억 번까지 사용합니다.

학습 손실

#fundamentals

특정 학습 반복 중 모델의 손실을 나타내는 측정항목입니다. 예를 들어 손실 함수가 평균 제곱 오차라고 가정해 보겠습니다. 아마도 10번째 반복의 학습 손실 (평균 제곱 오차)은 2.2이고, 100번째 반복의 학습 손실은 1.9일 것입니다.

손실 곡선은 학습 손실과 반복 횟수를 비교하여 표시합니다. 손실 곡선은 학습에 관한 다음과 같은 힌트를 제공합니다.

  • 하향 경사는 모델이 개선되고 있음을 의미합니다.
  • 기울기가 높아지면 모델이 점점 나빠지고 있음을 의미합니다.
  • 기울기가 수평인 경우에는 모델이 수렴에 도달했음을 의미합니다.

예를 들어 다소 이상화된 다음 손실 곡선은 다음과 같습니다.

  • 초기 반복 동안 가파른 하향 경사를 이루므로 모델이 빠르게 개선되었음을 의미합니다.
  • 학습 종료에 가까워질 때까지 점진적으로 평탄해지지만 (여전히 하향) 기울기를 보이는 경우. 초기 반복보다 약간 더 느린 속도로 모델이 지속적으로 개선됨을 의미합니다.
  • 학습 종료 직전의 평평한 경사로, 수렴을 시사합니다.

학습 손실과 반복 비교 도표 이 손실 곡선은 가파른 하향 경사에서 시작됩니다. 경사는 0이 될 때까지 점진적으로
     평탄해집니다.

학습 손실도 중요하지만 일반화도 참조하세요.

학습-제공 편향

#fundamentals

학습 중의 모델과 서빙 중의 동일 모델 성능 간의 차이입니다.

학습 세트

#fundamentals

모델을 학습시키는 데 사용되는 데이터 세트의 하위 집합입니다.

일반적으로 데이터 세트의 예는 다음과 같은 3가지 하위 집합으로 나뉩니다.

데이터 세트의 각 예는 앞의 하위 집합 중 하나에만 속하는 것이 좋습니다. 예를 들어 하나의 예시가 학습 세트와 검증 세트 모두에 속해서는 안 됩니다.

참음성 (TN)

#fundamentals

모델에서 네거티브 클래스올바르게 예측하는 예입니다. 예를 들어 모델은 특정 이메일 메시지가 스팸이 아니라고 추론하고 해당 이메일 메시지가 실제로는 스팸이 아님을 추론합니다.

참양성 (TP)

#fundamentals

모델이 포지티브 클래스올바르게 예측하는 예입니다. 예를 들어 모델에서 특정 이메일 메시지가 스팸이며 해당 이메일 메시지가 실제로 스팸이라고 추론할 수 있습니다.

참양성률 (TPR)

#fundamentals

재현율의 동의어입니다. 이는 다음과 같은 의미입니다.

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

참양성률은 ROC 곡선의 y축입니다.

U

과소적합

#fundamentals

모델이 학습 데이터의 복잡성을 완전히 캡처하지 못하여 예측 능력이 낮은 model을 생성합니다. 다음과 같은 여러 문제로 인해 과소적합이 발생할 수 있습니다.

라벨이 없는 예

#fundamentals

특성은 있지만 label은 없는 예 예를 들어 다음 표에는 주택 가격 모델의 라벨이 지정되지 않은 예 3개가 나와 있습니다. 각 예시에는 특성 3개가 있지만 주택 가격은 없습니다.

침실 수 욕실 수 주택 연식
3 2 15
2 1 72
4 2 34

지도 머신러닝에서 모델은 라벨이 지정된 예를 학습하고 라벨이 없는 예를 바탕으로 예측을 수행합니다.

준지도비지도 학습에서 라벨이 없는 예는 학습에 사용됩니다.

라벨이 지정되지 않은 예를 라벨이 있는 예와 대조합니다.

비지도 머신러닝

#clustering
#fundamentals

일반적으로 라벨이 없는 데이터 세트에서 패턴을 찾도록 model을 학습시킵니다.

비지도 머신러닝의 가장 일반적인 용도는 데이터를 유사한 예의 그룹으로 클러스터링하는 것입니다. 예를 들어 비지도 머신러닝 알고리즘은 음악의 다양한 속성을 기반으로 노래를 클러스터링할 수 있습니다. 결과 클러스터는 다른 머신러닝 알고리즘 (예: 음악 추천 서비스)의 입력이 될 수 있습니다. 클러스터링은 유용한 라벨이 드물거나 없는 경우에 유용합니다. 예를 들어 악용 방지 및 사기와 같은 분야에서 클러스터는 사람이 데이터를 더 잘 이해하는 데 도움이 될 수 있습니다.

지도 머신러닝과 대비되는 개념입니다.

V

검증

#fundamentals

모델 품질의 초기 평가입니다. 검증은 검증 세트와 비교하여 모델의 예측 품질을 확인합니다.

검증 세트는 학습 세트와 다르기 때문에 검증을 통해 과적합을 방지할 수 있습니다.

검증세트를 기준으로 모델을 평가하는 것은 1차 테스트, 테스트 세트를 기준으로 모델을 평가하는 것은 2차 테스트라고 생각할 수 있습니다.

유효성 검사 손실

#fundamentals

학습의 특정 반복 중에 검증 세트에서 모델의 손실을 나타내는 측정항목입니다.

일반화 곡선도 참고하세요.

검증 세트

#fundamentals

학습된 모델에 대해 초기 평가를 수행하는 데이터 세트의 하위 집합입니다. 일반적으로 학습된 모델을 검증 세트와 비교하여 몇 번 평가한 후에 테스트 세트를 기준으로 모델을 평가합니다.

일반적으로 데이터 세트의 예를 다음과 같이 뚜렷한 3가지 하위 집합으로 나눕니다.

데이터 세트의 각 예는 앞의 하위 집합 중 하나에만 속하는 것이 좋습니다. 예를 들어 하나의 예시가 학습 세트와 검증 세트 모두에 속해서는 안 됩니다.

W

weight

#fundamentals

모델이 다른 값과 곱하는 값입니다. 학습은 모델의 이상적인 가중치를 결정하는 프로세스이고, 추론은 학습된 가중치를 사용하여 예측을 수행하는 프로세스입니다.

가중치가 적용된 합계

#fundamentals

관련된 모든 입력 값의 합계에 해당 가중치를 곱한 값입니다. 예를 들어 관련 입력이 다음과 같이 구성되어 있다고 가정해 보겠습니다.

입력 값 입력 가중치
2 -1.3
-1 0.6
3 0.4

따라서 가중치가 적용된 합계는 다음과 같습니다.

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

가중 합계는 활성화 함수의 입력 인수입니다.

Z

Z 점수 정규화

#fundamentals

원시 특성 값을 해당 특성 평균의 표준 편차 수를 나타내는 부동 소수점 값으로 바꾸는 조정 기법입니다. 예를 들어 평균이 800이고 표준 편차가 100인 특성이 있다고 가정해 보겠습니다. 다음 표는 Z-점수 정규화를 통해 원시 값을 Z-점수에 매핑하는 방법을 보여줍니다.

원본 값 Z-점수
800 0
950 1.5 증가
575 -2.25

그러면 머신러닝 모델은 원시 값이 아닌 해당 특성의 Z-점수를 기준으로 학습합니다.