이 페이지는 Cloud Translation API를 통해 번역되었습니다.

머신러닝 용어집: 결정 포레스트

이 페이지에는 결정 포레스트 용어집 용어가 포함되어 있습니다. 모든 용어집 용어는 여기를 클릭하세요.

A

속성 샘플링

#df

각 결정 트리가 조건을 학습할 때 가능한 특성의 무작위 하위 집합만 고려하는 결정 포레스트를 학습하기 위한 전략입니다. 일반적으로 각 노드에 대해 서로 다른 특성 하위 집합이 샘플링됩니다. 반면 속성 샘플링 없이 결정 트리를 학습할 때는 각 노드에 가능한 모든 특성이 고려됩니다.

축 정렬 조건

#df

결정 트리에서 단일 지형지물만 포함된 조건 예를 들어 area가 지형지물인 경우 다음은 축에 정렬된 조건입니다.

area > 200

경사 조건과 대비되는 개념입니다.

B

bagging

#df

각 구성 모델이 대체 샘플링된 학습 예시의 무작위 하위 집합에서 학습하는 앙상블을 학습하는 방법입니다. 예를 들어 랜덤 포레스트는 bagging으로 학습된 결정 트리 모음입니다.

bagging은 bootstrap aggregating의 줄임말입니다.

자세한 내용은 의사결정 트리 과정의 무작위 포리를 참고하세요.

바이너리 조건

#df

결정 트리에서 가능한 결과가 두 가지(일반적으로 예 또는 아니요)인 조건입니다. 예를 들어 다음은 이진 조건입니다.

temperature >= 100

비바이너리 조건과 대비되는 개념입니다.

자세한 내용은 결정 트리 과정의 조건 유형을 참고하세요.

C

조건

#df

결정 트리에서 표현식을 평가하는 노드입니다. 예를 들어 다음과 같은 의사결정 트리에는 두 가지 조건이 포함되어 있습니다.

(x > 0) 및 (y > 0)이라는 두 조건으로 구성된 결정 트리

조건은 분할 또는 테스트라고도 합니다.

잎과 대비되는 조건입니다.

D

결정 포레스트

#df

여러 개의 결정 트리에서 생성된 모델입니다. 결정 포레스트는 결정 트리의 예측을 집계하여 예측합니다. 인기 있는 의사결정 포레스트 유형에는 랜덤 포레스트와 경사 부스팅 트리가 있습니다.

자세한 내용은 결정 트리 과정의 결정 트리 섹션을 참고하세요.

결정 트리

#df

계층적으로 구성된 조건 및 리프의 집합으로 구성된 지도 학습 모델입니다. 다음은 의사 결정 트리의 예입니다.

계층적으로 정렬된 4개의 조건으로 구성된 결정 트리로, 5개의 리프로 이어집니다.

E

엔트로피

#df

#Metric

정보 이론에서 확률 분포가 얼마나 예측할 수 없는지에 관한 설명입니다. 또는 엔트로피는 각 예시에 포함된 정보의 양으로 정의할 수도 있습니다. 확률 분포는 랜덤 변수의 모든 값이 동일한 확률을 보일 때 최대 엔트로피를 갖습니다.

가능한 두 값 '0'과 '1'이 있는 집합의 엔트로피(예: 이진 분류 문제의 라벨)는 다음과 같은 수식을 갖습니다.

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

각 항목의 의미는 다음과 같습니다.

H는 엔트로피입니다.
p는 '1' 예시의 비율입니다.
q는 '0' 예시의 비율입니다. q = (1 - p)입니다.
log는 일반적으로 log₂입니다. 이 경우 엔트로피 단위는 비트입니다.

예를 들어 다음을 가정합니다.

100개의 예시가 '1' 값을 포함합니다.
300개의 예시가 '0' 값을 포함합니다.

따라서 엔트로피 값은 다음과 같습니다.

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81비트/예시

완벽하게 균형 잡힌 세트 (예: 200개의 '0'과 200개의 '1')의 경우 예당 엔트로피가 1.0비트입니다. 집합이 불균형해질수록 엔트로피는 0.0으로 이동합니다.

결정 트리에서 엔트로피는 정보 이득을 공식화하는 데 도움이 되며, 이를 통해 분할자가 분류 결정 트리가 성장하는 동안 조건을 선택할 수 있습니다.

엔트로피를 다음과 비교하세요.

gini impurity
교차 엔트로피 손실 함수

엔트로피는 흔히 섀넌의 엔트로피라고 합니다.

자세한 내용은 결정 트리 과정의 숫자 특성이 있는 이진 분류를 위한 정확한 분할자를 참고하세요.

F

특성 중요도

#df

#Metric

변수 중요도의 동의어입니다.

G

gini impurity

#df

#Metric

엔트로피와 유사한 측정항목입니다. 분할자는 지니 불순도 또는 엔트로피에서 파생된 값을 사용하여 분류 의사결정 트리의 조건을 구성합니다. 정보 이득은 엔트로피에서 파생됩니다. 지니 불순도에서 파생된 측정항목에 대해 보편적으로 인정되는 등가 용어는 없습니다. 그러나 이 이름 없는 측정항목은 정보 이득만큼이나 중요합니다.

지니 불순도는 지니 계수 또는 간단히 지니라고도 합니다.

지니 불순도에 관한 수학적 세부정보를 보려면 아이콘을 클릭하세요.

지니 불순도는 동일한 분포에서 가져온 새 데이터를 잘못 분류할 가능성입니다. 가능한 값이 '0'과 '1'인 집합의 지니 불순도(예: 이진 분류 문제의 라벨)는 다음 수식으로 계산됩니다.

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

각 항목의 의미는 다음과 같습니다.

I는 지니 불순도입니다.
p는 '1' 예시의 비율입니다.
q는 '0' 예시의 비율입니다. q = 1-p

예를 들어 다음 데이터 세트를 고려해 보겠습니다.

100개의 라벨 (데이터 세트의 0.25)에 '1' 값이 포함되어 있습니다.
300개의 라벨 (데이터 세트의 0.75)에 '0' 값이 포함되어 있습니다.

따라서 지니 불순도는 다음과 같습니다.

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

따라서 동일한 데이터 세트의 임의 라벨은 잘못 분류될 확률이 37.5% 이고 올바르게 분류될 확률이 62.5% 입니다.

완벽하게 균형 잡힌 라벨 (예: '0' 200개와 '1' 200개)의 지니 불순도는 0.5입니다. 불균형 라벨이 있으면 지니 불순도가 0.0에 가까워집니다.

그래디언트 부스팅 (의사 결정) 트리 (GBT)

#df

다음과 같은 결정 포레스트 유형입니다.

학습은 경사 부스팅을 사용합니다.
약한 모델은 결정 트리입니다.

자세한 내용은 결정 트리 과정의 경사 부스트 결정 트리를 참고하세요.

경사 부스팅

#df

약한 모델을 학습하여 강한 모델의 품질을 반복적으로 개선 (손실 감소)하는 학습 알고리즘입니다. 예를 들어 선형 모델이나 소규모 결정 트리 모델은 약한 모델일 수 있습니다. 강력한 모델은 이전에 학습된 모든 약한 모델의 합계가 됩니다.

가장 단순한 형태의 경사 부스팅에서는 각 반복마다 약한 모델이 강한 모델의 손실 경사를 예측하도록 학습됩니다. 그런 다음 경사 하강과 마찬가지로 예측된 경사를 빼서 강력한 모델의 출력이 업데이트됩니다.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

각 항목의 의미는 다음과 같습니다.

$F_{0}$ 은 시작 강력한 모델입니다.
$F_{i+1}$ 은 다음 강력한 모델입니다.
$F_{i}$ 는 현재 강력한 모델입니다.
$\xi$ 는 0.0과 1.0 사이의 값으로 축소라고 하며, 이는 경사 하강의 학습률과 유사합니다.
$f_{i}$ 는 $F_{i}$의 손실 기울기를 예측하도록 학습된 약한 모델입니다.

최신 변형의 경사 부스팅은 계산에 손실의 2차 미분(헤시안)도 포함합니다.

결정 트리는 일반적으로 경사 부스팅에서 약한 모델로 사용됩니다. 경사 강화 (의사 결정) 트리를 참고하세요.

I

추론 경로

#df

결정 트리에서 추론 중에 특정 예시가 루트에서 다른 조건으로 이동하는 경로로, 잎으로 끝납니다. 예를 들어 다음 결정 트리에서 더 두꺼운 화살표는 다음과 같은 특성 값이 있는 예시의 추론 경로를 보여줍니다.

x = 7
y = 12
z = -3

다음 그림의 추론 경로는 리프 (Zeta)에 도달하기 전에 세 조건을 거칩니다.

4개의 조건과 5개의 리프로 구성된 결정 트리
루트 조건은 (x > 0)입니다. 대답이 '예'이므로 추론 경로는 루트에서 다음 조건 (y > 0)으로 이동합니다.
대답이 '예'이므로 추론 경로는 다음 조건 (z > 0)으로 이동합니다. 대답이 '아니요'이므로 추론 경로는 리프 (제타)인 터미널 노드로 이동합니다.

굵은 화살표 세 개는 추론 경로를 나타냅니다.

자세한 내용은 결정 트리 과정의 결정 트리를 참고하세요.

정보 획득

#df

#Metric

의사결정 트리에서 노드의 엔트로피와 하위 노드의 엔트로피의 가중치 (예수에 따라) 합계 간의 차이입니다. 노드의 엔트로피는 해당 노드의 예시의 엔트로피입니다.

예를 들어 다음 엔트로피 값을 고려해 보겠습니다.

상위 노드의 엔트로피 = 0.6
관련 예시가 16개인 하위 노드의 엔트로피 = 0.2
관련 예시가 24개인 다른 하위 노드의 엔트로피 = 0.1

따라서 예시의 40% 는 한 하위 노드에 있고 60% 는 다른 하위 노드에 있습니다. 따라서 날짜는 다음과 같이 계산합니다.

하위 노드의 가중치 엔트로피 합계 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

따라서 정보 이득은 다음과 같습니다.

정보 이득 = 상위 노드의 엔트로피 - 하위 노드의 가중치 엔트로피 합계
정보 이득 = 0.6 - 0.14 = 0.46

대부분의 분할자는 정보 이득을 극대화하는 조건을 만들려고 합니다.

in-set 조건

#df

결정 트리에서 항목 집합에 항목 하나가 있는지 테스트하는 조건입니다. 예를 들어 다음은 인셋 조건입니다.

  house-style in [tudor, colonial, cape]

추론 중에 주택 스타일 지형지물의 값이 tudor, colonial 또는 cape이면 이 조건은 '예'로 평가됩니다. 주택 스타일 지형지물의 값이 다른 값 (예: ranch)인 경우 이 조건은 '아니요'로 평가됩니다.

인셋 조건은 일반적으로 원-핫 인코딩된 특성을 테스트하는 조건보다 더 효율적인 결정 트리를 생성합니다.

L

잎

#df

결정 트리의 모든 엔드포인트 잎은 조건과 달리 테스트를 실행하지 않습니다. 리프는 가능한 예측입니다. 리프는 추론 경로의 터미널 노드이기도 합니다.

예를 들어 다음 결정 트리에는 세 개의 리프가 포함되어 있습니다.

두 개의 조건이 세 개의 리프로 이어지는 결정 트리

자세한 내용은 결정 트리 과정의 결정 트리를 참고하세요.

N

노드 (결정 트리)

#df

결정 트리의 조건 또는 리프

조건이 2개이고 리프가 3개인 결정 트리

자세한 내용은 결정 트리 과정의 결정 트리를 참고하세요.

논바이너리 조건

#df

가능한 결과가 2개 이상인 조건입니다. 예를 들어 다음과 같은 비바이너리 조건에는 세 가지 가능한 결과가 포함됩니다.

가능한 세 가지 결과로 이어지는 조건 (number_of_legs = ?) 한 가지 결과 (number_of_legs = 8)는 spider라는 리프를 가져옵니다. 두 번째 결과 (number_of_legs = 4)는 dog라는 리프를 가져옵니다. 세 번째 결과 (number_of_legs = 2)는 penguin이라는 리프를 가져옵니다.

자세한 내용은 결정 트리 과정의 조건 유형을 참고하세요.

O

경사 조건

#df

결정 트리에서 두 개 이상의 특징이 포함된 조건입니다. 예를 들어 높이와 너비가 모두 지형지물인 경우 다음은 경사 조건입니다.

  height > width

축에 정렬된 조건과 대비되는 개념입니다.

자세한 내용은 결정 트리 과정의 조건 유형을 참고하세요.

오프백 평가 (OOB 평가)

#df

각 결정 트리를 해당 결정 트리의 학습 중에 사용되지 않은 예시를 기준으로 테스트하여 학습 포레스트의 품질을 평가하는 메커니즘입니다. 예를 들어 다음 다이어그램에서 시스템은 약 3분의 2의 예시에서 각 결정 트리를 학습한 후 나머지 3분의 1의 예시를 기준으로 평가합니다.

3개의 결정 트리로 구성된 결정 포레스트
한 결정 트리는 예시의 3분의 2로 학습한 후 나머지 3분의 1을 OOB 평가에 사용합니다.
두 번째 결정 트리는 이전 결정 트리와 다른 2/3의 예시에서 학습한 후 이전 결정 트리와 다른 1/3을 OOB 평가에 사용합니다.

오프백 평가는 교차 검증 메커니즘의 계산상 효율적이고 보수적인 근사치입니다. 교차 검증에서는 교차 검증 라운드마다 하나의 모델이 학습됩니다(예: 10배 교차 검증에서는 10개의 모델이 학습됨). OOB 평가에서는 단일 모델이 학습됩니다. 배깅은 학습 중에 각 트리의 일부 데이터를 보류하므로 OOB 평가에서 이 데이터를 사용하여 교차 검증을 추정할 수 있습니다.

자세한 내용은 결정 트리 과정의 오프백 평가를 참고하세요.

P

순열 변수 중요도

#df

#Metric

특성 값을 순열한 후 모델의 예측 오류 증가를 평가하는 변수 중요도의 한 유형입니다. 순열 변수 중요도는 모델과 무관한 측정항목입니다.

R

랜덤 포레스트

#df

각 결정 트리가 백깅과 같은 특정 무작위 노이즈로 학습되는 결정 트리의 앙상블입니다.

랜덤 포레스트는 결정 포레스트의 한 유형입니다.

자세한 내용은 결정 트리 과정의 랜덤 포레스트를 참고하세요.

root

#df

의사결정 트리의 시작 노드 (첫 번째 조건)입니다. 일반적으로 다이어그램은 루트를 결정 트리의 맨 위에 배치합니다. 예를 들면 다음과 같습니다.

조건이 2개이고 리프가 3개인 결정 트리 시작 조건 (x > 2)이 근원입니다.

S

교체 샘플링

#df

동일한 항목을 여러 번 선택할 수 있는 후보 항목 집합에서 항목을 선택하는 메서드입니다. '교체를 사용'은 각 선택 후 선택된 항목이 후보 항목 풀로 반환된다는 의미입니다. 반대 방법인 대체 없이 샘플링은 후보 항목을 한 번만 선택할 수 있음을 의미합니다.

예를 들어 다음과 같은 과일 세트를 생각해 보겠습니다.

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

시스템이 fig를 첫 번째 항목으로 무작위로 선택한다고 가정해 보겠습니다. 대체 샘플링을 사용하는 경우 시스템은 다음 세트에서 두 번째 항목을 선택합니다.

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

예, 이전과 동일한 세트이므로 시스템에서 fig를 다시 선택할 수 있습니다.

대체 없이 샘플링을 사용하는 경우 샘플을 선택한 후에는 다시 선택할 수 없습니다. 예를 들어 시스템이 fig를 첫 번째 샘플로 무작위로 선택하면 fig는 다시 선택할 수 없습니다. 따라서 시스템은 다음과 같은 (축소된) 집합에서 두 번째 샘플을 선택합니다.

fruit = {kiwi, apple, pear, cherry, lime, mango}

추가 메모를 보려면 아이콘을 클릭하세요.

대체 샘플링의 대체라는 단어는 많은 사람들을 혼란스럽게 합니다. 영어에서 replacement는 '대체'를 의미합니다. 그러나 대체 샘플링은 실제로 대체의 프랑스어 정의('어떤 것을 다시 집어넣는 것')를 사용합니다.

영어 단어 replacement는 프랑스어 단어 remplacement로 번역됩니다.

축소

#df

경사 부스팅의 초매개변수로, 오버피팅을 제어합니다. 경사 부스팅의 수축은 경사하강법의 학습률과 유사합니다. 수축은 0.0과 1.0 사이의 십진수 값입니다. 수축 값이 작을수록 더 큰 수축 값보다 오버피팅이 줄어듭니다.

분할

#df

결정 트리에서 조건의 다른 이름입니다.

분할기

#df

결정 트리를 학습하는 동안 각 노드에서 최적의 조건을 찾는 루틴(및 알고리즘)입니다.

T

테스트

#df

결정 트리에서 조건의 다른 이름입니다.

임곗값 (결정 트리용)

#df

축 정렬 조건에서 지형지물이 비교되는 값입니다. 예를 들어 다음 조건에서 75는 임곗값입니다.

grade >= 75

자세한 내용은 의사결정 포레스트 과정의 숫자 특성이 있는 이진 분류를 위한 정확한 분할자를 참고하세요.

V

변수 중요도

#df

#Metric

모델에 대한 각 특성의 상대적 중요도를 나타내는 점수 집합입니다.

예를 들어 주택 가격을 추정하는 의사 결정 트리를 생각해 보겠습니다. 이 결정 트리에서 크기, 연령, 스타일이라는 세 가지 특성을 사용한다고 가정해 보겠습니다. 세 가지 특성에 대한 변수 중요성 집합이 {size=5.8, age=2.5, style=4.7}으로 계산되면 크기가 연령이나 스타일보다 결정 트리에 더 중요합니다.

ML 전문가에게 모델의 다양한 측면을 알릴 수 있는 다양한 변수 중요도 측정항목이 있습니다.

W

군중의 지혜

#df

많은 수의 사람들 ('군중')의 의견이나 추정치를 평균하면 놀라울 정도로 좋은 결과를 얻을 수 있다는 개념입니다. 예를 들어 사람들이 큰 병에 담긴 젤리 빈의 수를 추측하는 게임을 생각해 보세요. 대부분의 개별 추측은 부정확하지만 모든 추측의 평균은 실험적으로 병에 담긴 젤리 빈의 실제 수와 놀라울 정도로 근접한 것으로 나타났습니다.

앙상블은 군중의 지혜에 상응하는 소프트웨어입니다. 개별 모델이 매우 부정확한 예측을 하더라도 여러 모델의 예측을 평균하면 놀라울 정도로 정확한 예측이 나오는 경우가 많습니다. 예를 들어 개별 결정 트리는 예측이 좋지 않을 수 있지만 결정 포레스트는 종종 매우 정확한 예측을 합니다.

머신러닝 용어집: 결정 포레스트 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

A

속성 샘플링

축 정렬 조건

B

bagging

바이너리 조건

C

조건

D

결정 포레스트

결정 트리

E

엔트로피

F

특성 중요도

G

gini impurity

지니 불순도에 관한 수학적 세부정보를 보려면 아이콘을 클릭하세요.

그래디언트 부스팅 (의사 결정) 트리 (GBT)

경사 부스팅

I

추론 경로

정보 획득

in-set 조건

L

잎

N

노드 (결정 트리)

논바이너리 조건

O

경사 조건

오프백 평가 (OOB 평가)

P

순열 변수 중요도

R

랜덤 포레스트

root

S

교체 샘플링

추가 메모를 보려면 아이콘을 클릭하세요.

축소

분할

분할기

T

테스트

임곗값 (결정 트리용)

V

변수 중요도

W

군중의 지혜

머신러닝 용어집: 결정 포레스트