머신러닝 용어집: 결정 포레스트

컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

이 페이지에는 결정 포레스트 용어집이 포함되어 있습니다. 모든 용어집을 보려면 여기를 클릭하세요.

A

속성 샘플링

#df

결정 트리조건을 학습할 때 가능한 특성의 무작위 하위 집합만 고려하는 결정 포레스트 학습 전략입니다. 일반적으로 노드마다 서로 다른 특성 하위 집합이 샘플링됩니다. 이와 달리 속성 샘플링 없이 결정 트리를 학습시키는 경우 각 노드에 대해 가능한 모든 특성이 고려됩니다.

축 정렬 조건

#df

결정 트리에서 단일 특성만 포함하는 조건 예를 들어 영역이 지형지물인 경우 축 정렬 조건은 다음과 같습니다.

area > 200

경사 상태와 대비되는 개념입니다.

B

배깅

#df

앙상블학습하는 방법: 각 구성요소 모델대체로 샘플링된 무작위 학습 예시의 하위 집합을 학습합니다. 예를 들어 랜덤 포레스트는 백핑으로 학습된 결정 트리의 컬렉션입니다.

배깅이라는 용어는 bootstrap aggreging</a>을 나타냅니다.

바이너리 조건

#df

결정 트리에서 가능한 결과는 두 개(예: 또는 아니요)만 있는 조건입니다. 예를 들어 다음은 바이너리 조건입니다.

temperature >= 100

논바이너리 조건과 대비되는 개념입니다.

C

condition

#df

결정 트리에서 표현식을 평가하는 노드는 예를 들어 결정 트리의 다음 부분에는 두 개의 조건이 포함되어 있습니다.

(x > 0) 및 (y > 0)의 두 조건으로 구성된 결정 트리

조건을 분할 또는 테스트라고도 합니다.

리프와 조건을 비교합니다.

관련 주제에 대한 추가 정보

D

결정 포레스트

#df

여러 결정 트리로 만든 모델입니다. 결정 포레스트는 결정 트리의 예측을 집계하여 예측합니다. 많이 사용되는 결정 포레스트 유형으로는 랜덤 포레스트경사 부스팅 트리가 있습니다.

결정 트리

#df

일련의 조건과 계층적으로 구성된 나가기로 구성된 지도 학습 모델입니다. 예를 들어 다음은 결정 트리입니다.

계층적으로 정렬되는 4개의 조건으로 구성된 결정 트리로, 5개의 리프로 이어집니다.

E

엔트로피

#df

정보 이론에서 확률 분포의 예측 불가능한 정도에 대한 설명입니다. 또는 엔트로피는 각 에 포함된 정보의 양으로도 정의됩니다. 무작위 변수의 모든 값이 동일할 때 분포에서 가능한 엔트로피가 가장 높습니다.

가능한 두 가지 값이 '0' 및 '1'인 세트의 엔트로피(예: 이진 분류 문제의 라벨)는 다음 수식을 사용합니다.

H = -p 로그 p - q log q = -p log p - (1-p) * log (1-p)

각 매개변수는 다음과 같습니다.

  • H는 엔트로피입니다.
  • p는 예시의 비율입니다.
  • q는 예: '0'의 비율입니다. q = (1 - p)
  • log는 일반적으로 log2입니다. 이 경우 엔트로피 단위는 약간 다릅니다.

예를 들어 다음을 가정합니다.

  • 100개의 예시에는 "1" 값이 포함되어 있습니다.
  • 300개의 예시에는 "0" 값이 포함되어 있습니다.

따라서 엔트로피 값은 다음과 같습니다.

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 예시당 0.81비트

완전히 균형 잡힌 세트 (예: 200초와 200초)는 예시당 1.0비트의 엔트로피를 가지게 됩니다. 집합의 불균형이 증가하면 엔트로피가 0.0으로 이동합니다.

결정 트리에서 엔트로피는 분할이 분류 결정 트리가 성장하는 과정에서 조건을 선택할 수 있도록 정보 획득을 공식화하는 데 도움이 됩니다.

엔트로피와 비교:

엔트로피는 섀넌의 엔트로피라고 합니다.

F

특성 중요도

#df

변수 중요도의 동의어입니다.

G

Gini 불순물

#df

엔트로피와 비슷한 측정항목입니다. 분할기는 지니 불순물 또는 엔트로피에서 파생된 값을 사용하여 분류 결정 트리조건을 구성합니다. 정보 획득은 엔트로피에서 파생됩니다. 기니 불순물에서 파생된 측정항목에는 보편적으로 허용되는 용어가 없습니다. 그러나 이 이름이 없는 측정항목은 정보 획득만큼이나 중요합니다.

지니 불순물은 gini 색인이라고도 하며 간단히 gini라고 합니다.

경사 부스팅

#df

취약한 모델이 강력한 모델의 품질을 반복적으로 개선 (손실 줄이기)하도록 학습시키는 학습 알고리즘입니다. 예를 들어 취약한 모델은 선형 또는 작은 결정 트리 모델일 수 있습니다. 강력한 모델은 이전에 학습된 모든 취약한 모델의 합계가 됩니다.

가장 간단한 형태의 경사 부스팅에서는 각 반복에서 약한 모델이 강력한 모델의 손실 경사를 예측하도록 학습됩니다. 그런 다음 경사하강법과 마찬가지로 예측 경사를 빼면 강력한 모델의 출력이 업데이트됩니다.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

각 매개변수는 다음과 같습니다.

  • $F_{0}$ 은(는) 시작을 알리는 강력한 모델입니다.
  • $F_{i+1}$ 는 강하고 강력한 모델입니다.
  • $F_{i}$ 는 현재 강력한 모델입니다.
  • $\xi$ 는 0.0에서 1.0 사이의 값으로, 축소라고 하며 경사하강법의 학습률과 유사합니다.
  • $f_{i}$ 는 $F_{i}$의 손실 경사를 예측하도록 학습된 약한 모델입니다.

경사 부스의 현대적인 변형에는 계산 시 손실의 2차(헤시안)도 포함됩니다.

결정 트리는 일반적으로 그라데이션 부스팅에서 약한 모델로 사용됩니다. 경사 부스팅 (결정) 트리를 참고하세요.

경사 부스팅 (결정) 트리 (GBT)

#df

다음과 같은 유형의 결정 포레스트:

I

추론 경로

#df

결정 트리에서는 추론 중에 특정 예시루트에서 다른 조건으로 이동한 경로를 리프로 종료합니다. 예를 들어 다음 결정 트리에서 두꺼운 화살표는 다음 특성 값이 있는 예시의 추론 경로를 보여줍니다.

  • x = 7입니다.
  • y = 12
  • z = -3

다음 그림의 추론 경로는 리프 (Zeta)에 도달하기 전에 세 가지 조건을 거칩니다.

네 개의 조건과 다섯 개의 잎으로 구성된 결정 트리
          루트 조건은 (x > 0)입니다. 답변이 &#39;예&#39;이므로 추론 경로가 루트에서 다음 조건 (y > 0)으로 이동합니다.
          답변이 &#39;예&#39;이므로 추론 경로는 다음 조건 (z > 0)으로 이동합니다. 답변이 &#39;아니요&#39;이므로 추론 경로는 리프 (Zeta)인 터미널 노드로 이동합니다.

두 개의 굵은 화살표는 추론 경로를 표시합니다.

정보 획득

#df

결정 포레스트에서 노드의 엔트로피와 하위 노드의 엔트로피 합계에 가중치가 적용된 (예: 개수) 차이입니다. 노드의 엔트로피는 해당 노드의 예시 엔트로피입니다.

예를 들어 다음 엔트로피 값을 생각해 보세요.

  • 상위 노드의 엔트로피 = 0.6
  • 관련 하위 항목 16개의 엔트로피 = 0.2
  • 24개의 관련 예시가 있는 다른 하위 노드의 엔트로피 = 0.1

예를 들어 40% 는 한 하위 노드에 있고 60% 는 다른 하위 노드에 있습니다. 따라서 날짜는 다음과 같이 설정됩니다.

  • 하위 노드의 가중치 엔트로피 합계 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

따라서 정보 획득은 다음과 같습니다.

  • 정보 획득 = 상위 노드의 엔트로피 - 하위 노드의 가중치 엔트로피 합계
  • 정보 획득 = 0.6 - 0.14 = 0.46

대부분의 분할은 정보 획득을 극대화하는 조건을 찾습니다.

인셋 조건

#df

결정 트리에서 항목 집합에 하나의 항목이 있는지 테스트하는 조건입니다. 다음은 인셋 조건의 예입니다.

  house-style in [tudor, colonial, cape]

추론 중에 하우스 스타일의 특성 값이 tudor, colonial 또는 cape이면 이 조건은 '예'로 평가됩니다. 하우스 스타일 특성의 값이 다른 경우 (예: ranch) 이 조건은 '아니요'로 평가됩니다.

설정된 조건은 일반적으로 원-핫 인코딩 기능을 테스트하는 조건보다 더 효율적인 결정 트리로 이어집니다.

L

#df

결정 트리의 모든 엔드포인트 조건과 달리 리프는 테스트를 수행하지 않습니다. 리프는 예측이 가능합니다. 리프는 추론 경로의 터미널 노드이기도 합니다.

예를 들어 다음 결정 트리에는 세 개의 잎이 포함되어 있습니다.

3개의 잎으로 연결되는 2개의 조건이 있는 결정 트리

구매 불가

노드 (결정 트리)

#df

결정 트리에서 모든 조건 또는 리프.

2개의 조건과 3개의 잎이 있는 결정 트리

논바이너리 조건

#df

가능한 결과가 3개 이상 포함된 조건입니다. 예를 들어 다음 비 바이너리 조건에는 세 가지 가능한 결과가 포함됩니다.

세 가지 가능한 결과로 이어지는 조건 (number_of_legs = ?). 하나의 결과 (number_of_legs = 8)는 거미라는 리프로 이어집니다. 두 번째 결과 (number_of_legs = 4)는 dog라는 리프로 연결됩니다. 세 번째 결과 (number_of_legs = 2)는 펭귄이라는 리프로 이어집니다.

O

경사 상태

#df

결정 트리에서 2개 이상의 특성이 관련된 조건. 예를 들어 높이와 너비가 모두 특성인 경우 다음은 기울기 조건입니다.

  height > width

축 정렬 조건과 대비되는 개념입니다.

OOB 평가 (OOB 평가)

#df

해당 결정 트리의 학습 중에 사용되지 않은 예시를 기준으로 각 결정 트리를 테스트하여 결정 포레스트의 품질을 평가하는 메커니즘 예를 들어 다음 다이어그램에서 시스템은 각 예의 3분의 2를 사용해서 각 결정 트리를 학습시킨 후 나머지 3분의 1을 기준으로 평가한다는 것을 알 수 있습니다.

결정 트리 세 개로 구성된 결정 포레스트.
          하나의 결정 트리는 예시의 2/3를 학습한 후 나머지 1/3을 OOB 평가에 사용합니다.
          두 번째 결정 트리는 이전 결정 트리와 다른 3분의 2를 예로 학습한 후에 이전 결정 트리와 다른 3분의 1을 OOB 평가에 사용합니다.

오프-바디 평가는 교차 검증 메커니즘의 계산 효율적이고 보수적인 근사치입니다. 교차 검증에서는 교차 검증 1회에 대해 하나의 모델이 학습됩니다. 예를 들어 10개 모델은 10번의 교차 검증에서 학습됩니다. OOB 평가를 사용하면 단일 모델이 학습됩니다. 배깅은 학습 중에 각 트리의 일부 데이터를 보류하므로 OOB 평가는 이 데이터를 사용하여 교차 검증을 근사화할 수 있습니다.

P

순열 변수 중요도

#df

특성 값을 허용한 모델의 예측 오류 증가를 평가하는 변수 중요도 유형입니다. 순차 변수 중요도는 모델에 구애받지 않는 측정항목입니다.

R

랜덤 포레스트

#df

각 결정 트리가 배깅과 같은 특정 무작위 노이즈로 학습되는 결정 트리앙상블

랜덤 포레스트는 결정 포레스트의 한 유형입니다.

root

#df

결정 트리의 시작 노드(첫 번째 조건)입니다. 규칙에 따라 다이어그램은 루트를 결정 트리 상단에 배치합니다. 예를 들면 다음과 같습니다.

2개의 조건과 3개의 잎이 있는 결정 트리 시작 조건 (x > 2)은 루트입니다.

S

교체를 통해 샘플링

#df

같은 항목을 여러 번 선택할 수 있는 후보 항목 집합에서 항목을 선택하는 메서드입니다. '대체 항목'이라는 구문은 각 선택 후 선택한 항목이 후보 항목 풀로 반환됨을 의미합니다. 역방향 메서드인 샘플링 없이 대체는 후보 항목을 한 번만 선택할 수 있음을 의미합니다.

예를 들어 다음 과일 세트를 살펴보겠습니다.

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

시스템이 첫 번째 항목으로 fig를 무작위로 선택한다고 가정해 보겠습니다. 대체와 함께 샘플링을 사용하는 경우 시스템은 다음 세트에서 두 번째 항목을 선택합니다.

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

예. 이전과 같은 세트이므로 시스템은 다시 fig를 선택할 수 있습니다.

교체 없이 샘플링을 사용하는 경우 샘플링한 후 샘플을 다시 선택할 수 없습니다. 예를 들어 시스템에서 fig를 무작위로 첫 번째 샘플로 선택하면 fig는 다시 선택할 수 없습니다. 따라서 시스템은 다음 (축소된) 세트에서 두 번째 샘플을 선택합니다.

fruit = {kiwi, apple, pear, cherry, lime, mango}

축소

#df

과적합을 제어하는 경사 부스팅초매개변수. 경사 부스팅 축소는 경사하강법학습률과 유사합니다. 축소는 0.0과 1.0 사이의 십진수 값입니다. 축소 값이 작을수록 큰 축소 값보다 더 많은 과적합을 줄입니다.

분할

#df

결정 트리에서 조건의 또 다른 이름입니다.

스플리터

#df

결정 트리를 학습하는 동안 루틴(및 알고리즘)은 각 노드에서 최적의 조건을 찾습니다.

T

테스트

#df

결정 트리에서 조건의 또 다른 이름입니다.

기준 (결정 트리의 경우)

#df

축 정렬 조건에서 특성을 비교하는 값 예를 들어 75는 다음 조건의 기준 값입니다.

grade >= 75

V

변수 중요도

#df

모델에 대한 각 특성의 상대적 중요도를 나타내는 점수 집합입니다.

예를 들어 주택 가격을 추정하는 결정 트리를 고려해 보세요. 이 결정 트리에서 크기, 연령, 스타일의 세 가지 특성을 사용한다고 가정해 보겠습니다. 세 특성의 변수 중요도 집합이 {size=5.8, age=2.5, style=4.7}로 계산되면 의사 결정 트리는 나이 또는 스타일보다 크기가 더 중요합니다.

ML 전문가에게 모델의 다양한 측면을 알릴 수 있는 다양한 변수 중요도 측정항목이 있습니다.

W

군중의 지혜

#df

많은 사람들(예: 군중)의 의견이나 추산을 평균하면 놀라울 정도로 좋은 결과를 얻는 경우가 많습니다. 예를 들어 큰 항아리에 싸인 젤리빈 수를 추측하는 게임이 있다고 가정해 보겠습니다. 대부분의 개별 추측은 정확하지는 않지만 모든 추측의 평균은 경험적으로 단지 항아리에 있는 실제 젤리빈 수에 가깝습니다.

앙상블은 군중의 지혜를 상징하는 소프트웨어입니다. 개별 모델이 매우 부정확하게 예측하더라도 많은 모델의 예측을 평균화하면 놀라울 정도로 좋은 예측이 생성됩니다. 예를 들어 개별 결정 트리가 제대로 예측하지 못하더라도 결정 포레스트에서 예측이 매우 잘 이루어질 수 있습니다.