이 페이지에는 결정 포레스트 용어집이 포함되어 있습니다. 모든 용어집 용어를 보려면 여기를 클릭하세요.
A
속성 샘플링
각 결정 트리가 조건을 학습할 때 가능한 특성의 무작위 하위 집합만 고려하는 결정 포리스트를 학습하기 위한 전술 일반적으로 각 노드에 서로 다른 특성의 하위 집합이 샘플링됩니다. 반면 속성 샘플링 없이 결정 트리를 학습시킬 때는 각 노드에 가능한 모든 특성이 고려됩니다.
축 정렬 조건
결정 트리에서는 하나의 특성만 포함된 조건이 있습니다. 예를 들어 영역이 지형지물인 경우 다음은 축 정렬 조건입니다.
area > 200
기울기 상태와 대비되는 개념입니다.
억
배깅
각 구성 모델이 교체로 샘플링된 무작위 학습 예의 하위 집합을 학습시키는 앙상블을 학습하는 방법입니다. 예를 들어 랜덤 포레스트는 백핑을 통해 학습된 결정 트리의 모음입니다.
배깅은 보트 aggregaing을 지칭합니다.
바이너리 조건
결정 트리에서 가능한 결과가 두 개뿐인 조건(일반적으로 예 또는 아니요)입니다. 예를 들어 다음은 바이너리 조건입니다.
temperature >= 100
바이너리 조건과 대비되는 개념입니다.
C
condition
결정 트리에서 표현식을 평가하는 노드. 예를 들어 결정 트리의 다음 부분에는 두 가지 조건이 포함됩니다.
조건을 분할 또는 테스트라고도 합니다.
리프와 조건을 대조합니다.
참고 항목
D
결정 포레스트
여러 결정 트리에서 만든 모델 결정 포레스트는 결정 트리의 예측을 집계하여 예측합니다. 많이 사용되는 결정 포레스트 유형으로는 랜덤 포레스트와 그래디언트 부스티드 트리가 있습니다.
결정 트리
일련의 조건과 계층 구조로 나가기로 구성된 지도 학습 모델입니다. 예를 들어 다음은 결정 트리입니다.
E
엔트로피
정보 이론에서 확률 분포의 예측 불가능 정도에 대한 설명입니다. 또는 엔트로피도 각 예에 포함된 정보의 양을 정의합니다. 무작위 변수의 모든 값이 동일할 때 분포에서 가능한 엔트로피가 가장 높아집니다.
가능한 값이 '0'과 '1'인 세트의 엔트로피(예: 이진 분류 문제의 라벨)는 다음 수식을 사용합니다.
H = -p 로그 p - q 로그 q = -p 로그 p - (1-p) * 로그 (1-p)
각 매개변수는 다음과 같습니다.
- H는 엔트로피입니다.
- p는 '1' 예의 비율입니다.
- q는 '0' 예시의 비율입니다. q = (1 - p)
- log는 일반적으로 log2입니다. 이 경우 엔트로피 단위는 약간 있습니다.
예를 들어 다음을 가정합니다.
- '1' 값이 포함된 예 100개
- '0'이 포함된 예시 300개
따라서 엔트로피 값은 다음과 같습니다.
- p = 0.25
- q = 0.75
- 예당 H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81비트
완벽하게 균형 잡힌 세트 (예: 200'0's 및 200'1's)는 예시당 1.0비트의 엔트로피를 갖게 됩니다. 집합이 더 불균형이 되면 엔트로피가 0.0을 향해 이동합니다.
결정 트리에서 엔트로피는 분할이 분류 결정 트리가 성장하는 동안 조건을 선택하는 데 도움이 되는 정보 얻기를 공식화하는 데 도움이 됩니다.
엔트로피와 비교하기:
엔트로피는 섀넌의 엔트로피라고도 합니다.
F
특성 중요도
변수 중요도의 동의어입니다.
G
지니 불순물
엔트로피와 유사한 측정항목입니다. 분할은 지니 불순물 또는 엔트로피에서 파생된 값을 사용하여 분류 결정 트리의 조건을 구성합니다. 정보 얻기는 엔트로피에서 파생됩니다. 지니 불순물에서 파생된 측정항목에는 보편적으로 허용되는 용어가 없습니다. 그러나 이 이름이 없는 측정항목은 정보 획득만큼 중요합니다.
지니 불순물은 지니 지수 또는 간단히 지니라고도 합니다.
경사 부스팅
취약한 모델이 강력한 모델의 품질을 반복적으로 개선 (손실 줄이기)하도록 학습시키는 학습 알고리즘입니다. 예를 들어 취약한 모델은 선형 또는 작은 결정 트리 모델일 수 있습니다. 강력한 모델은 이전에 학습된 모든 취약한 모델의 합계가 됩니다.
가장 간단한 형태의 경사 부스팅에서는 각 반복에서 강력한 모델의 손실 경사를 예측하도록 약한 모델을 학습시킵니다. 그런 다음 경사하강법과 마찬가지로 예측된 경사를 빼서 강력한 모델의 출력을 업데이트합니다.
각 매개변수는 다음과 같습니다.
- $F_{0}$ 은(는) 강력한 시작 모델입니다.
- $F_{i+1}$ 는 차세대 강력한 모델입니다.
- $F_{i}$ 는 현재 강력한 모델입니다.
- $\xi$ 는 0.0에서 1.0 사이의 값이며, 축소라고 하며, 이는 경사하강법의 학습률과 유사합니다.
- $f_{i}$ 은(는) $F_{i}$의 손실 경사를 예측하도록 학습된 약한 모델입니다.
경사 부스의 최신 변형에는 계산 시 손실의 2계도(Hessian)도 포함됩니다.
결정 트리는 경사 부스팅에서 일반적으로 취약한 모델로 사용됩니다. 경사 부스팅 (결정) 트리를 참고하세요.
경사 부스팅 (결정) 트리 (GBT)
다음과 같은 유형의 결정 포레스트입니다.
I
추론 경로
결정 트리의 추론 중에 특정 예시가 루트에서 다른 조건으로 이동하는 경로를 리프로 종료합니다. 예를 들어 다음 결정 트리에서 두꺼운 화살표는 다음 특성 값이 있는 예시의 추론 경로를 보여줍니다.
- x = 7입니다.
- y = 12
- Z = -3
다음 그림의 추론 경로는 리프 (Zeta
)에 도달하기 전에 세 가지 조건을 거칩니다.
두 개의 굵은 화살표는 추론 경로를 보여줍니다.
정보 획득
결정 포레스트에서 노드의 엔트로피와 하위 노드의 엔트로피의 가중 (예시 수 기준)의 차이입니다. 노드의 엔트로피는 해당 노드의 예시 엔트로피입니다.
예를 들어 다음 엔트로피 값을 생각해 보세요.
- 상위 노드의 엔트로피 = 0.6
- 16개의 관련 예시가 있는 하위 노드 1개의 엔트로피 = 0.2
- 24개의 관련 예시가 있는 다른 하위 노드의 엔트로피 = 0.1
따라서 예의 40% 는 한 하위 노드에, 나머지 60% 는 다른 하위 노드에 있습니다. 따라서 날짜는 다음과 같이 설정됩니다.
- 하위 노드의 가중치 엔트로피 합계 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
따라서 다음과 같은 정보를 얻을 수 있습니다.
- 정보 획득 = 상위 노드의 엔트로피 - 하위 노드의 가중치 엔트로피 합계
- 정보 획득 = 0.6 - 0.14 = 0.46
대부분의 분할은 정보 획득을 극대화하는 조건을 만들려고 합니다.
인셋 조건
결정 트리에서 항목 집합에 있는 한 항목의 존재를 테스트하는 조건입니다. 예를 들어 다음은 인셋 조건입니다.
house-style in [tudor, colonial, cape]
추론 중에 하우스 스타일 feature의 값이 tudor
, colonial
또는 cape
이면 이 조건은 Yes로 평가됩니다. 하우스 스타일 특성의 값이 기타인 경우 (예: ranch
) 이 조건은 아니요로 평가됩니다.
인셋 조건을 사용하면 일반적으로 원-핫 인코딩 기능을 테스트하는 조건보다 더 효율적인 결정 트리를 생성할 수 있습니다.
L
잎
결정 트리의 모든 엔드포인트 리프는 조건과 달리 테스트를 실행하지 않습니다. 대신 리프는 예측일 수 있습니다. 리프는 추론 경로의 터미널 노드이기도 합니다.
예를 들어 다음 결정 트리에는 세 개의 잎이 포함됩니다.
N
노드 (결정 트리)
논바이너리 조건
가능한 결과가 3개 이상 포함된 조건입니다. 예를 들어 다음 논바이너리 조건에는 세 가지 가능한 결과가 포함됩니다.
O
경사 상태
결정 트리에서 둘 이상의 특성이 포함된 조건. 예를 들어 높이와 너비가 모두 특성인 경우 다음과 같은 기울기 조건이 됩니다.
height > width
축 정렬 조건과 대비되는 개념입니다.
옥외 평가 (OOB 평가)
해당 결정 트리의 학습 중에 사용되지 않은 예시를 기준으로 각 결정 트리를 테스트하여 결정 포리스트의 품질을 평가하는 메커니즘 예를 들어 다음 다이어그램에서는 시스템이 예시의 약 3분의 2에 대해 각 결정 트리를 학습시킨 후 나머지 예시 중 3분의 1을 기준으로 평가합니다.
외부 추가 평가는 교차 검증 메커니즘의 계산상 효율적이고 보수적인 근사치를 사용합니다. 교차 검증에서는 교차 검증 1회에 대해 하나의 모델이 학습됩니다. 예를 들어 10회의 모델은 10배의 교차 검증에서 학습됩니다. OOB 평가를 사용하면 단일 모델이 학습됩니다. 배깅은 학습 중에 각 트리에서 일부 데이터를 보류하므로 OOB 평가는 이 데이터를 사용하여 교차 검증에 근사를 적용할 수 있습니다.
P
순열 변수 중요도
특성 값을 판독한 후 모델의 예측 오류 증가를 평가하는 변수 중요도 유형입니다. 순열 변수 중요도는 모델에 구속되지 않는 측정항목입니다.
오른쪽
랜덤 포레스트
각 결정 트리가 특정 임의 노이즈(예: 배깅)로 학습된 결정 트리의 앙상블
랜덤 포레스트는 결정 포레스트의 한 유형입니다.
root
결정 트리의 시작 노드 (첫 번째 조건)입니다. 규칙에 따라 다이어그램에서는 결정 트리 상단에 루트를 배치합니다. 예를 들면 다음과 같습니다.
S
교체를 통한 샘플링
동일한 항목을 여러 번 선택할 수 있는 후보 항목 집합에서 항목을 선택하는 메서드입니다. '대체 항목'이라는 문구는 각 선택 이후 선택한 항목이 후보 항목 풀로 반환됨을 의미합니다. 이와 달리 대체 없이 샘플링은 후보 항목을 한 번만 선택할 수 있음을 의미합니다.
예를 들어 다음 과일 세트를 생각해 보세요.
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
시스템이 첫 번째 항목으로 fig
를 무작위로 선택한다고 가정해 보겠습니다.
대체 시 샘플링을 사용하는 경우 시스템은 다음 집합에서 두 번째 항목을 선택합니다.
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
예, 이전과 같은 세트이므로 시스템은 fig
를 다시 선택할 수 있습니다.
교체 없이 샘플링을 사용하는 경우 샘플을 선택한 후에는 다시 선택할 수 없습니다. 예를 들어 시스템에서 fig
를 첫 번째 샘플로 무작위로 선택하면 fig
를 다시 선택할 수 없습니다. 따라서 시스템은 다음 (축소) 세트에서 두 번째 샘플을 선택합니다.
fruit = {kiwi, apple, pear, cherry, lime, mango}
축소
과적합을 제어하는 경사 부스팅의 초매개변수. 경사 부스팅의 축소는 경사하강법의 학습률과 비슷합니다. 축소는 0.0과 1.0 사이의 십진수 값입니다. 축소 값이 작으면 큰 축소 값보다 과적합이 줄어듭니다.
분할
스플리터
결정 트리를 학습하는 동안 각 노드에서 최상의 조건을 찾는 루틴(및 알고리즘)
T
테스트
기준 (결정 트리용)
축 정렬 조건에서 특성을 비교할 값입니다. 예를 들어 75는 다음 조건의 임계값입니다.
grade >= 75
V
변수 중요도
모델에 대한 각 특성의 상대적 중요도를 나타내는 점수 집합입니다.
예를 들어 주택 가격을 추정하는 결정 트리를 고려해 보세요. 이 결정 트리에 크기, 나이, 스타일이라는 세 가지 특성을 사용한다고 가정해 보겠습니다. 세 가지 특성의 변수 중요도 집합이 {size=5.8, age=2.5, style=4.7}로 계산될 경우 결정 트리에 있어 나이 또는 스타일보다 크기가 더 중요합니다.
ML 전문가에게 모델의 다양한 측면에 대해 알릴 수 있는 다양한 변수 중요도 측정항목이 있습니다.
W
군중의 지혜
많은 사람들 ('군중')의 의견이나 견적을 평균화하면 놀라울 정도로 좋은 결과를 얻을 수 있습니다. 예를 들어 큰 항아리에 담긴 젤리빈 수를 추측하는 게임을 생각해 보세요. 대부분의 개별 추측은 부정확할 수 있지만 모든 추측의 평균은 의외로 항아리의 실제 젤리빈 수에 가까운 것으로 나타났습니다.
앙상블은 군중 속에 있는 지혜를 상징하는 소프트웨어입니다. 개별 모델이 지나치게 부정확하더라도 예측이 많으면 놀랍도록 우수한 예측이 생성되는 경우가 많습니다. 예를 들어 개별 결정 트리가 제대로 예측하지 못하더라도 결정 포레스트는 예측이 매우 좋은 경우가 많습니다.