머신러닝 용어집: 결정 포레스트

이 페이지에는 결정 포레스트 용어집 용어가 포함되어 있습니다. 모든 용어집 용어를 보려면 여기를 클릭하세요.

A

속성 샘플링

#df

결정 트리조건을 학습할 때 가능한 특성의 무작위 하위 집합만 고려하는 결정 포레스트를 학습시키는 방법 일반적으로 노드마다 다른 기능 하위 집합이 샘플링됩니다. 반면에 속성 샘플링 없이 결정 트리를 학습시키면 각 노드에서 가능한 모든 특성이 고려됩니다.

축 정렬 조건

#df

결정 트리에서 하나의 특성만 포함된 조건 예를 들어 영역이 지형지물인 경우 축 정렬 조건은 다음과 같습니다.

area > 200

사선 조건과 대비되는 개념입니다.

B

배깅

#df

각 구성요소 모델대체를 통해 샘플링된 학습 예시의 무작위 하위 집합에서 학습하는 앙상블학습하는 방법입니다. 예를 들어 랜덤 포레스트는 배깅으로 학습된 결정 트리 모음입니다.

배깅이라는 용어는 트랩 집계의 줄임말입니다.

이진 조건

#df

결정 트리에서 가능한 결과가 두 개(일반적으로 또는 아니요)인 조건입니다. 예를 들어 다음은 바이너리 조건입니다.

temperature >= 100

비 바이너리 조건과 대비되는 개념입니다.

C

condition

#df

결정 트리에서 표현식을 평가하는 모든 노드 예를 들어 결정 트리의 다음 부분에는 두 가지 조건이 포함됩니다.

(x > 0) 및 (y > 0)의 두 조건으로 구성된 결정 트리

조건을 분할 또는 테스트라고도 합니다.

조건을 leaf와 대조합니다.

참고 항목

케이스가

결정 포레스트

#df

여러 결정 트리에서 생성된 모델 결정 포레스트는 결정 트리의 예측을 집계하여 예측을 수행합니다. 결정 포레스트의 인기 유형에는 랜덤 포레스트그라데이션 부스티드 트리가 있습니다.

결정 트리

#df

지도 학습 모델은 conditionsconditions의 계층 구조로 구성됩니다. 예를 들어 다음은 결정 트리입니다.

계층적으로 정렬된 4개의 조건으로 구성된 결정 트리로, 이 트리는 5개의 리프로 이어집니다.

E

엔트로피

#df

정보 이론에서는 확률 분포를 예측할 수 없는 정도에 관한 설명입니다. 또는 각 에 포함된 정보의 양으로도 엔트로피로 정의됩니다. 확률 변수의 모든 값이 동일할 때 분포에서 가능한 최대 엔트로피가 발생합니다.

두 개의 가능한 값 '0'과 '1'이 있는 집합의 엔트로피(예: 이진 분류 문제의 라벨)의 공식은 다음과 같습니다.

  H = -p 로그 p - q 로그 q = -p 로그 p - (1-p) * 로그 (1-p)

각 항목의 의미는 다음과 같습니다.

  • H는 엔트로피입니다.
  • p는 '1' 예의 비율입니다.
  • q는 '0' 예의 비율입니다. q = (1 - p)입니다.
  • log는 일반적으로 log2입니다. 이 경우, 엔트로피 단위는 약간입니다.

예를 들어 다음을 가정합니다.

  • 값 '1'이 포함된 예시 100개
  • 값 '0'이 포함된 예시 300개

따라서 엔트로피 값은 다음과 같습니다.

  • p = 0.25
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 예시당 0.81비트

완벽하게 균형이 잡힌 집합 (예: 200개의 '0'과 200개의 '1')은 예시당 1.0비트의 엔트로피를 갖습니다. 세트의 불균형이 더 높아지면 엔트로피는 0.0으로 이동합니다.

결정 트리에서 엔트로피는 정보 획득을 구성하여 분류 결정 트리가 성장하는 동안 분할조건을 선택하는 데 도움이 됩니다.

엔트로피 비교:

엔트로피는 종종 섀넌의 엔트로피라고 불립니다.

F

특성 중요도

#df

변수 중요도의 동의어입니다.

G

지니 불순물

#df

엔트로피와 유사한 측정항목입니다. 분할기는 지니 불순물 또는 엔트로피에서 파생된 값을 사용하여 결정 트리 분류를 위한 조건을 구성합니다. 정보 이득은 엔트로피에서 파생됩니다. 지니 불순물에서 파생된 측정항목에 보편적으로 인정되는 동등한 용어는 없지만 이름이 지정되지 않은 이 측정항목은 정보 획득만큼 중요합니다.

지니 불순물을 지니 색인 또는 간단히 지니라고도 합니다.

그래디언트 부스티드 (결정) 트리 (GBT)

#df

결정 포레스트의 한 유형은 다음과 같습니다.

경사 부스팅

#df

약한 모델을 반복적으로 학습시켜 강력한 모델의 품질을 개선 (손실 감소)하도록 하는 학습 알고리즘입니다. 예를 들어 약한 모델은 선형 또는 작은 결정 트리 모델일 수 있습니다. 강력한 모델은 이전에 학습된 모든 취약한 모델의 합계가 됩니다.

가장 간단한 형태의 경사 부스팅에서는 반복할 때마다 약한 모델이 강력한 모델의 손실 경사를 예측하도록 학습됩니다. 그런 다음 경사하강법과 마찬가지로 예측된 경사를 빼서 강력한 모델의 출력을 업데이트합니다.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

각 항목의 의미는 다음과 같습니다.

  • $F_{0}$ 는 강력한 초기 모델입니다.
  • $F_{i+1}$ 는 그다음으로 강력한 모델입니다.
  • $F_{i}$ 는 현재의 강력한 모델입니다.
  • $\xi$ 는 축소라고 하는 0.0과 1.0 사이의 값으로, 경사하강법의 학습률과 유사합니다.
  • $f_{i}$ 는 $F_{i}$의 손실 경사를 예측하도록 학습된 약한 모델입니다.

그라데이션 부스팅의 최신 변형에는 손실의 2도분(헤시안)도 포함됩니다.

결정 트리는 일반적으로 그라데이션 부스팅에서 약한 모델로 사용됩니다. 그라데이션 부스티드 (결정) 트리를 참고하세요.

I

추론 경로

#df

결정 트리에서 추론 중에 특정 루트에서 다른 조건으로 향하는 경로는 리프로 끝납니다. 예를 들어 다음 결정 트리에서 더 굵은 화살표는 특성 값이 다음과 같은 예의 추론 경로를 나타냅니다.

  • x = 7
  • y = 12
  • z = -3

다음 그림의 추론 경로는 리프 (Zeta)에 도달하기 전에 세 가지 조건을 거칩니다.

4개의 조건과 5개의 리프로 구성된 결정 트리
          루트 조건은 (x > 0)입니다. 답변이 예이므로
          추론 경로는 루트에서 다음 조건으로 이동합니다 (y > 0).
          답변이 예이므로 추론 경로는 다음 조건 (z > 0)으로 이동합니다. 답이 '아니요'이므로 추론 경로는 리프 (Zeta)인 터미널 노드로 이동합니다.

세 개의 굵은 화살표는 추론 경로를 보여줍니다.

정보를 얻음

#df

결정 포레스트에서 노드의 엔트로피와 하위 노드의 가중치가 적용된 (예의 수 기준) 엔트로피 합계 간의 차이입니다. 노드의 엔트로피는 해당 노드에 있는 예의 엔트로피입니다.

다음과 같은 엔트로피 값을 예로 들어보겠습니다.

  • 상위 노드의 엔트로피 = 0.6
  • 관련 예 16개가 있는 하위 노드 1개의 엔트로피 = 0.2
  • 관련 예 24개가 있는 다른 하위 노드의 엔트로피 = 0.1

따라서 예시의 40% 는 한 하위 노드에 있고 60% 는 다른 하위 노드에 있습니다. 따라서 날짜는 다음과 같이 계산합니다.

  • 하위 노드의 가중치가 적용된 엔트로피 합계 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

따라서 얻은 정보는 다음과 같습니다.

  • 정보 획득 = 상위 노드의 엔트로피 - 하위 노드의 가중치가 적용된 엔트로피 합계
  • 정보 이득 = 0.6 - 0.14 = 0.46

대부분의 스플리터는 정보 획득을 극대화하는 조건을 만들려고 합니다.

설정 조건

#df

결정 트리에서 항목 집합 중 하나의 항목이 있는지 테스트하는 조건 예를 들어 다음은 인셋 조건입니다.

  house-style in [tudor, colonial, cape]

추론 중에 주택 스타일 feature의 값이 tudor 또는 colonial 또는 cape이면 이 조건은 '예'로 평가됩니다. 주택 스타일 지형지물의 값이 다른 값 (예: ranch)이면 이 조건은 '아니요'로 판정됩니다.

인셋 조건은 일반적으로 원-핫 인코딩 기능을 테스트하는 조건보다 더 효율적인 결정 트리로 이어집니다.

L

#df

결정 트리의 모든 엔드포인트 조건과 달리 리프는 테스트를 실행하지 않습니다. 오히려 리프는 가능한 예측입니다. 리프는 또한 추론 경로의 최종 노드이기도 합니다.

예를 들어 다음 결정 트리에는 세 개의 리프가 포함됩니다.

3개의 리프로 이어지는 두 개의 조건이 있는 결정 트리

구매 불가

노드 (결정 트리)

#df

결정 트리에서 모든 조건 또는 리프

조건 2개와 리프 3개가 있는 결정 트리

논바이너리 조건

#df

가능한 결과가 3개 이상 포함된 조건입니다. 예를 들어 다음과 같은 비바이너리 조건에는 세 가지 가능한 결과가 포함됩니다.

가능한 세 가지 결과로 이어지는 조건 (number_of_legs = ?) 결과 1개 (number_of_legs = 8)는 스파이더라는 리프로 이어집니다. 두 번째 결과 (number_of_legs = 4)는 이름이 개인 잎사귀로 이어집니다. 세 번째 결과 (number_of_legs = 2)는 펭귄이라는 리프로 이어집니다.

O

사선 상태

#df

결정 트리에서 2개 이상의 특성을 포함하는 조건입니다. 예를 들어 높이와 너비가 모두 특성인 경우 다음은 비스듬한 조건입니다.

  height > width

축 정렬 조건과 대비되는 개념입니다.

상자 외부 평가 (OOB 평가)

#df

결정 트리의 학습 중에 사용되지 않은 를 기준으로 각 결정 트리를 테스트하여 결정 포레스트의 품질을 평가하는 메커니즘 예를 들어 다음 다이어그램에서 시스템은 예시의 약 3분의 2에 대해 각 결정 트리를 학습한 다음 나머지 3분의 1 예시와 비교하여 평가합니다.

세 개의 결정 트리로 구성된 결정 포레스트
          한 결정 트리는 예시의 3분의 2에 대해 학습한 후 나머지 1/3을 OOB 평가에 사용합니다.
          두 번째 결정 트리는 이전 결정 트리와 다른 3분의 2의 예시에서 학습한 다음 OOB 평가에 이전 결정 트리와 다른 3분의 1을 사용합니다.

외부 평가는 교차 검증 메커니즘의 계산상 효율적이고 보수적인 근사값입니다. 교차 검증에서는 교차 검증 라운드마다 하나의 모델이 학습됩니다(예: 10배의 교차 검증에서 모델 10개가 학습됨). OOB 평가에서는 단일 모델을 학습시킵니다. 배깅은 학습 중에 각 트리의 일부 데이터를 보류하므로 OOB 평가에서 해당 데이터를 사용하여 교차 검증의 근사치를 산출할 수 있습니다.

P

순열 변수 중요도

#df

특성 값을 변경한 모델의 예측 오류 증가를 평가하는 변수 중요도 유형입니다. 순열 변수 중요도는 모델에 구속받지 않는 측정항목입니다.

R

랜덤 포레스트

#df

각 결정 트리가 배깅과 같은 특정 무작위 노이즈로 학습되는 결정 트리앙상블입니다.

랜덤 포레스트는 결정 포레스트의 한 유형입니다.

root

#df

결정 트리의 시작 노드 (첫 번째 조건)입니다. 규칙에 따라 다이어그램은 결정 트리의 맨 위에 루트를 배치합니다. 예를 들면 다음과 같습니다.

조건 2개와 리프 3개가 있는 결정 트리 시작 조건 (x > 2)은 루트입니다.

S

대체를 포함한 샘플링

#df

같은 항목을 여러 번 선택할 수 있는 후보 항목 집합에서 항목을 선택하는 메서드입니다. '대체 포함'이라는 문구는 각 선택 후 선택된 항목이 후보 항목 풀에 반환됨을 의미합니다. 이와 반대로 대체 없이 샘플링하는 방법은 후보 항목을 한 번만 선택할 수 있다는 의미입니다.

예를 들어 다음과 같은 과일 세트를 살펴보겠습니다.

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

시스템에서 무작위로 fig를 첫 번째 항목으로 선택한다고 가정해 보겠습니다. 대체가 포함된 샘플링을 사용하는 경우 시스템은 다음 집합 중에서 두 번째 항목을 선택합니다.

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

예. 이전과 동일하므로 시스템에서 fig를 다시 선택할 가능성이 있습니다.

교체 없이 샘플링을 사용하는 경우 샘플을 선택하면 다시 선택할 수 없습니다. 예를 들어 시스템에서 무작위로 fig을 첫 번째 샘플로 선택하면 fig을 다시 선택할 수 없습니다. 따라서 시스템은 다음 (감소) 세트 중에서 두 번째 샘플을 선택합니다.

fruit = {kiwi, apple, pear, cherry, lime, mango}

수축

#df

과적합을 제어하는 경사 부스팅초매개변수. 경사 부스팅의 축소는 경사하강법학습률과 유사합니다. 축소는 0.0과 1.0 사이의 십진수 값입니다. 축소 값이 작을수록 큰 축소 값보다 과적합이 더 많이 줄어듭니다.

분할

#df

결정 트리에서 조건의 다른 이름입니다.

스플리터

#df

결정 트리를 학습시키는 동안 루틴(및 알고리즘)은 각 노드에서 최상의 조건을 찾습니다.

T

테스트

#df

결정 트리에서 조건의 다른 이름입니다.

임곗값 (결정 트리용)

#df

축 정렬 조건에서 특성이 비교되는 값입니다. 예를 들어 75는 다음 조건에서 기준 값입니다.

grade >= 75

V

변수 중요도

#df

모델에 대한 각 특성의 상대적 중요도를 나타내는 점수 집합입니다.

예를 들어 주택 가격을 추정하는 결정 트리가 있다고 가정해 보겠습니다. 이 결정 트리가 크기, 나이, 스타일이라는 세 가지 특성을 사용한다고 가정해 보겠습니다. 세 가지 특성에 대한 변수 중요도 집합이 {size=5.8, age=2.5, style=4.7}로 계산되면 결정 트리에서 크기가 연령이나 스타일보다 더 중요합니다.

다양한 중요도 측정항목이 존재하여 ML 전문가에게 모델의 다양한 측면에 대한 정보를 제공할 수 있습니다.

W

대중의 지혜

#df

많은 사람들 ('군중')의 의견이나 추정치를 평균화하는 아이디어는 종종 놀라울 정도로 좋은 결과를 낳습니다. 예를 들어 큰 병에 담긴 젤리빈의 수를 추측하는 게임을 생각해 보세요. 대부분의 개별 추측은 정확하지 않지만 모든 추측의 평균은 놀랍게도 항아리에 담긴 실제 젤리빈 개수에 가까운 것으로 나타났습니다.

앙상블은 수많은 사람들이 지혜롭게 여기는 소프트웨어입니다. 개별 모델의 예측이 매우 부정확하더라도 여러 모델의 예측을 평균하면 놀라울 정도로 우수한 예측이 생성되는 경우가 많습니다. 예를 들어 개별 결정 트리는 잘못된 예측을 할 수 있지만 결정 포레스트는 매우 우수한 예측을 하는 경우가 많습니다.