이 페이지는 Cloud Translation API를 통해 번역되었습니다.

머신러닝 용어집: 결정 포레스트

이 페이지에는 결정 포레스트 용어집 용어가 포함되어 있습니다. 모든 용어집 용어를 보려면 여기를 클릭하세요.

A

속성 샘플링

#df

각 결정 트리가 조건을 학습할 때 가능한 특성의 무작위 하위 집합만 고려하는 결정 포레스트 학습 전략입니다. 일반적으로 노드마다 서로 다른 특성 하위 집합이 샘플링됩니다. 반면에 속성 샘플링 없이 결정 트리를 학습시키는 경우 각 노드에서 가능한 모든 특성이 고려됩니다.

축 정렬 조건

#df

결정 트리에서 하나의 특성만 포함된 조건 예를 들어 영역이 지형지물인 경우 축 정렬 조건은 다음과 같습니다.

area > 200

경사 조건과 대비되는 개념입니다.

B

배깅

#df

앙상블을 학습하는 방법입니다. 이때 각 구성요소 모델은 대체로 샘플링된 학습 예의 무작위 하위 집합에서 학습합니다. 예를 들어 랜덤 포레스트는 배깅을 통해 학습된 결정 트리 모음입니다.

배깅이라는 용어는 부스트랩 집계의 줄임말입니다.

바이너리 조건

#df

결정 트리에서 가능한 결과가 두 가지(일반적으로 yes 또는 no)만 있는 조건. 예를 들어 다음은 바이너리 조건입니다.

temperature >= 100

논바이너리 조건과 대비되는 개념입니다.

C

condition

#df

결정 트리에서 표현식을 평가하는 모든 노드. 예를 들어 결정 트리의 다음 부분에는 두 가지 조건이 포함됩니다.

(x > 0) 및 (y > 0)의 두 조건으로 구성된 결정 트리

조건을 분할 또는 테스트라고도 합니다.

조건을 leaf와 대조합니다.

D

결정 포레스트

#df

여러 결정 트리에서 생성된 모델 결정 포레스트는 결정 트리의 예측을 집계하여 예측합니다. 인기 있는 결정 포레스트 유형에는 랜덤 포레스트 및 그라데이션 부스티드 트리가 있습니다.

결정 트리

#df

계층적으로 구성된 일련의 conditions과 conditions로 구성된 지도 학습 모델입니다. 예를 들어 다음은 결정 트리입니다.

계층적으로 정렬된 4개의 조건으로 구성된 결정 트리로, 5개의 리프가 생성됩니다.

E

엔트로피

#df

정보 이론에서는 확률 분포를 예측할 수 없는 정도에 관한 설명입니다. 또는 각 예에 포함된 정보의 양으로도 엔트로피를 정의합니다. 확률 변수의 모든 값이 동일할 때 분포에서 가능한 엔트로피가 가장 높습니다.

가능한 두 값 '0'과 '1'이 있는 집합의 엔트로피(예: 이진 분류 문제의 라벨)의 공식은 다음과 같습니다.

H = -p 로그 p - q 로그 q = -p 로그 p - (1-p) * 로그 (1-p)

각 매개변수는 다음과 같습니다.

H는 엔트로피입니다.
p는 예 '1'의 비율입니다.
q는 '0'의 예에 대한 비율입니다. q = (1 - p)입니다.
log는 일반적으로 log₂입니다. 이 경우 엔트로피 단위는 약간입니다.

예를 들어 다음을 가정합니다.

값 '1'이 포함된 예시 100개
값 '0'이 포함된 예시 300개

따라서 엔트로피 값은 다음과 같습니다.

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 예당 0.81비트

완벽하게 균형 잡힌 집합 (예: 200개의 '0'과 200개의 '1')은 예시당 1.0비트의 엔트로피를 가집니다. 세트의 불균형이 더욱 커지면 엔트로피는 0.0을 향해 이동합니다.

결정 트리에서 엔트로피는 정보 획득을 공식화하여 스플리터가 분류 결정 트리가 성장하는 동안 조건을 선택하는 데 도움을 줍니다.

엔트로피 비교:

지니 불순물
교차 엔트로피 손실 함수

엔트로피는 섀넌의 엔트로피라고도 합니다.

F

특성 중요도

#df

변수 중요도의 동의어입니다.

G

지니 불순물

#df

엔트로피와 유사한 측정항목입니다. 분할기는 지니 불순물 또는 엔트로피에서 파생된 값을 사용하여 결정 트리 분류를 위한 조건을 구성합니다. 정보 이득은 엔트로피에서 파생됩니다. gini 불순물에서 파생된 측정항목에 대해 보편적으로 인정되는 동등한 용어는 없지만, 이 이름이 지정되지 않은 이 측정항목은 정보 획득만큼이나 중요합니다.

지니 불순물을 지니 지수 또는 간단히 지니라고도 합니다.

지니 불순물에 대한 자세한 수학적 정보를 보려면 아이콘을 클릭하세요.

지니 불순은 동일한 분포에서 가져온 새로운 데이터를 잘못 분류할 확률입니다. 가능한 두 값 '0'과 '1'이 있는 집합의 지니 불순물(예: 이진 분류 문제의 라벨)은 다음 공식으로 계산됩니다.

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

각 매개변수는 다음과 같습니다.

I는 지니 불순물입니다.
p는 예 '1'의 비율입니다.
q는 '0'의 예에 대한 비율입니다. q = 1-p입니다.

다음 데이터 세트를 예로 들어 보겠습니다.

100개의 라벨 (데이터 세트의 0.25)에 값 '1'이 포함됨
라벨 300개 (데이터 세트의 0.75)에 값 '0'이 포함됨

따라서 지니 불순물은 다음과 같습니다.

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

따라서 동일한 데이터 세트의 무작위 라벨이 잘못 분류될 확률은 37.5%, 올바르게 분류될 확률은 62.5% 입니다.

완전히 균형 잡힌 라벨 (예: 200개의 '0'과 200개의 '1')의 지니 불순물은 0.5입니다. 매우 불균형 라벨의 지니 불순물은 0.0에 가깝습니다.

그래디언트 부스티드 (결정) 트리 (GBT)

#df

결정 포레스트의 한 유형으로, 다음과 같은 요소가 포함됩니다.

학습은 경사 부스팅을 사용합니다.
약한 모델은 결정 트리입니다.

경사 부스팅

#df

강력한 모델의 품질을 개선 (손실 감소)하도록 반복적으로 약한 모델을 학습시키는 학습 알고리즘입니다. 예를 들어 약한 모델은 선형 또는 소규모 결정 트리 모델일 수 있습니다. 강인한 모델은 이전에 학습된 모든 취약한 모델의 합이 됩니다.

가장 간단한 형태의 경사 부스팅에서는 반복할 때마다 약한 모델이 강력한 모델의 손실 경사를 예측하도록 학습됩니다. 그런 다음 경사하강법과 마찬가지로 예측된 경사를 빼서 강력한 모델의 출력을 업데이트합니다.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

각 매개변수는 다음과 같습니다.

$F_{0}$ 는 강력한 시작 모델입니다.
$F_{i+1}$ 가 차선 모델입니다.
$F_{i}$ 는 현재의 강력한 모델입니다.
$\xi$ 는 축소라고 하는 0.0과 1.0 사이의 값으로, 경사하강법의 학습률과 유사합니다.
$f_{i}$ 는 $F_{i}$의 손실 경사를 예측하도록 학습된 약한 모델입니다.

경사 부스팅의 최신 변형에는 계산에서 손실의 2도함수(헤시안)도 포함됩니다.

결정 트리는 일반적으로 경사 부스팅의 약한 모델로 사용됩니다. 그라데이션 부스티드 (결정) 트리를 참고하세요.

I

추론 경로

#df

결정 트리에서 추론 중에 특정 예의 경로는 루트에서 다른 조건까지 거치며 리프로 끝납니다. 예를 들어 다음 결정 트리에서 굵은 화살표는 다음과 같은 특성 값을 사용하여 예의 추론 경로를 나타냅니다.

x = 7
y = 12
z = -3

다음 그림의 추론 경로는 리프 (Zeta)에 도달하기 전에 세 가지 조건을 거칩니다.

4개의 조건과 5개의 리프로 구성된 결정 트리
루트 조건은 (x > 0)입니다. 답변이 '예'이므로 추론 경로가 루트에서 다음 조건으로 이동합니다 (y > 0).
답변이 '예'이므로 추론 경로는 다음 조건 (z > 0)으로 이동합니다. 답이 '아니요'이므로 추론 경로는 리프 (Zeta)인 터미널 노드로 이동합니다.

세 개의 굵은 화살표는 추론 경로를 보여줍니다.

정보 수집

#df

결정 포레스트에서 노드의 엔트로피와 하위 노드 엔트로피의 가중 (예시 개수별) 합계 간 차이입니다. 노드의 엔트로피는 해당 노드에 있는 예의 엔트로피입니다

예를 들어 다음과 같은 엔트로피 값을 생각해 보겠습니다.

상위 노드의 엔트로피 = 0.6
관련 예 16개가 있는 하위 노드 1개의 엔트로피 = 0.2
관련 예 24개가 있는 다른 하위 노드의 엔트로피 = 0.1

따라서 예시의 40% 는 한 하위 노드에 있고 60% 는 다른 하위 노드에 있습니다. 따라서 날짜는 다음과 같이 계산합니다.

하위 노드의 가중치가 적용된 엔트로피 합계 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

이렇게 얻은 정보는 다음과 같습니다.

정보 증가 = 상위 노드의 엔트로피 - 하위 노드의 가중치가 적용된 엔트로피 합계
정보 증가 = 0.6 - 0.14 = 0.46

대부분의 스플리터는 정보 획득을 극대화하는 조건을 만들려고 합니다.

설정 조건

#df

결정 트리에서 항목 집합에 하나의 항목이 존재하는지 테스트하는 조건 예를 들어 다음은 설정된 조건입니다.

  house-style in [tudor, colonial, cape]

추론 중에 주택 스타일 지형지물의 값이 tudor 또는 colonial 또는 cape이면 이 조건은 '예'로 평가됩니다. 주택 스타일 지형지물의 값이 다른 값 (예: ranch)이면 이 조건은 '아니요'로 평가됩니다.

인셋 조건은 일반적으로 원-핫 인코딩 특성을 테스트하는 조건보다 더 효율적인 결정 트리로 이어집니다.

L

잎

#df

결정 트리의 모든 엔드포인트 조건과 달리 리프는 테스트를 실행하지 않습니다. 오히려 리프는 가능한 예측입니다. 또한 리프는 추론 경로의 터미널 노드이기도 합니다.

예를 들어 다음 결정 트리에는 세 개의 리프가 포함됩니다.

3개의 잎으로 이어지는 두 개의 조건이 있는 결정 트리

구매 불가

노드 (결정 트리)

#df

결정 트리에서 모든 조건 또는 리프

2개의 조건과 3개의 잎이 있는 결정 트리

논바이너리 조건

#df

가능한 결과가 3개 이상 포함된 조건입니다. 예를 들어 다음 비 바이너리 조건에는 가능한 세 가지 결과가 포함됩니다.

가능한 세 가지 결과로 이어지는 조건 (number_of_legs = ?) 하나의 결과 (number_of_legs = 8)는 스파이더라는 이름의 리프로 연결됩니다. 두 번째 결과 (number_of_legs = 4)는 강아지라는 잎으로 이어집니다. 세 번째 결과 (number_of_legs = 2)는 펭귄이라는 이름의 잎으로 이어집니다.

O

사축 상태

#df

결정 트리에서 2개 이상의 특성과 관련된 조건. 예를 들어 높이와 너비가 모두 특성인 경우 다음은 사선 조건입니다.

  height > width

축 정렬 조건과 대비되는 개념입니다.

상자 외 평가 (OOB 평가)

#df

결정 트리의 학습 중에 사용되지 않은 예를 기준으로 각 결정 트리를 테스트하여 결정 포레스트의 품질을 평가하는 메커니즘입니다. 예를 들어 다음 다이어그램에서 시스템은 예시의 약 3분의 2에 대해 각 결정 트리를 학습시킨 다음 나머지 3분의 1의 예시와 비교하여 평가합니다.

세 개의 결정 트리로 구성된 결정 포레스트
하나의 의사 결정 트리는 예시의 3분의 2에 대해 학습한 후 나머지 1/3을 OOB 평가에 사용합니다.
두 번째 결정 트리는 이전 결정 트리와 다른 3분의 2의 예시에 관해 학습한 다음 OOB 평가에 이전 결정 트리와 다른 3분의 1을 사용합니다.

Out-of-bag 평가는 교차 검증 메커니즘의 계산 효율적이고 보수적인 근사값입니다. 교차 검증에서는 교차 검증 라운드마다 하나의 모델이 학습됩니다(예: 10배 교차 검증에서는 모델 10개가 학습됨). OOB 평가의 경우 단일 모델이 학습됩니다. 배깅은 학습 중에 각 트리에서 일부 데이터를 보류하므로 OOB 평가에서 해당 데이터를 사용하여 교차 검증의 근사치를 산출할 수 있습니다.

P

순열 변수 중요도

#df

특성 값을 순열한 후 모델의 예측 오류 증가를 평가하는 변수 중요도 유형입니다. 순열 변수 중요도는 모델과 무관한 측정항목입니다.

R

랜덤 포레스트

#df

각 결정 트리가 배깅과 같은 임의의 특정 노이즈로 학습되는 결정 트리의 앙상블입니다.

랜덤 포레스트는 결정 포레스트의 한 유형입니다.

루트

#df

결정 트리의 시작 노드 (첫 번째 조건)입니다. 규칙에 따라 다이어그램은 결정 트리의 맨 위에 루트를 배치합니다. 예를 들면 다음과 같습니다.

2개의 조건과 3개의 잎이 있는 결정 트리 시작 조건 (x > 2)은 루트입니다.

S

대체를 통한 샘플링

#df

동일한 항목을 여러 번 선택할 수 있는 후보 항목 집합에서 항목을 선택하는 메서드입니다. '교체 있음'이라는 문구는 각 선택 후 선택된 항목이 후보 항목 풀로 반환된다는 의미입니다. 그 반대 방법인 대체 없이 샘플링은 후보 항목을 한 번만 선택할 수 있다는 의미입니다.

예를 들어 다음 과일 세트를 살펴보겠습니다.

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

시스템에서 무작위로 fig를 첫 번째 항목으로 선택한다고 가정해 보겠습니다. 교체 샘플링을 사용하는 경우 시스템은 다음 세트 중에서 두 번째 항목을 선택합니다.

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

예. 이전과 동일하므로 시스템이 잠재적으로 fig를 다시 선택할 수 있습니다.

대체 없이 샘플링을 사용하는 경우 샘플을 선택하면 다시 선택할 수 없습니다. 예를 들어 시스템에서 무작위로 fig를 첫 번째 샘플로 선택하면 fig을 다시 선택할 수 없습니다. 따라서 시스템은 다음 (축소된) 집합에서 두 번째 샘플을 선택합니다.

fruit = {kiwi, apple, pear, cherry, lime, mango}

추가 메모를 보려면 아이콘을 클릭합니다.

샘플링과 교체에서 대체라는 단어는 많은 사람을 혼란스럽게 합니다. 영어에서 replacement는 'substitution'을 의미합니다. 하지만 대체를 사용한 샘플링의 경우 실제로는 '무엇을 되돌린다는 것'을 의미하는 대체에 프랑스어의 정의가 사용됩니다.

영어 단어 replacement는 프랑스어 단어 remplacement로 번역됩니다.

축소

#df

과적합을 제어하는 경사 부스팅의 초매개변수. 경사 부스팅의 축소는 경사하강법의 학습률과 유사합니다. 축소는 0.0과 1.0 사이의 십진수 값입니다. 축소 값이 작을수록 큰 축소 값보다 과적합이 줄어듭니다.

분할

#df

결정 트리에서 조건의 다른 이름입니다.

스플리터

#df

결정 트리를 학습시키는 동안 각 노드에서 최상의 조건을 찾는 루틴(및 알고리즘)

T

테스트

#df

결정 트리에서 조건의 다른 이름입니다.

임곗값 (결정 트리용)

#df

축 정렬 조건에서 특성이 비교되는 값입니다. 예를 들어 다음 조건에서는 75가 임곗값입니다.

grade >= 75

V

변수 중요도

#df

모델에 대한 각 특성의 상대적 중요도를 나타내는 점수 집합입니다.

예를 들어 주택 가격을 추정하는 결정 트리가 있다고 가정해 보겠습니다. 이 결정 트리에서 크기, 나이, 스타일의 세 가지 특성을 사용한다고 가정해 보겠습니다. 세 가지 특성의 변수 중요도 집합이 {size=5.8, age=2.5, style=4.7}로 계산되면 연령이나 스타일보다 크기가 결정 트리에 더 중요합니다.

다양한 중요도 측정항목이 존재하므로 ML 전문가에게 모델의 다양한 측면에 대한 정보를 제공할 수 있습니다

W

군중의 지혜

#df

대규모 집단 ('군중')의 의견이나 추정치를 평균하면 놀라울 정도로 좋은 결과를 얻는 경우가 많습니다. 예를 들어 커다란 병에 담긴 젤리빈의 수를 추측하는 게임을 생각해 보세요. 대부분의 개별 추측은 정확하지 않을 수 있지만, 모든 추측의 평균은 놀랍게도 항아리 속의 실제 젤리빈 수에 가까운 것으로 경험적으로 드러났습니다.

앙상블(Ensembles)은 대중의 지혜를 나타내는 소프트웨어 아날로그입니다. 개별 모델이 매우 부정확한 예측을 하더라도 많은 모델의 예측을 평균하면 놀라울 정도로 우수한 예측이 생성되는 경우가 많습니다. 예를 들어 개별 결정 트리는 잘못된 예측을 할 수 있지만 결정 포레스트는 매우 우수한 예측을 하는 경우가 많습니다.