機械学習用語集: デシジョン フォレスト

コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

このページでは、デシジョン フォレストの用語集について説明します。用語集のすべての用語については、こちらをクリックしてください。

A

属性のサンプリング

#df

ディシジョン フォレストをトレーニングするための戦術。各ディシジョン ツリーは、条件を学習する際に、有効な特徴のサブセットをランダムに考慮します。通常、ノードごとに異なる特徴のサブセットがサンプリングされます。対照的に、属性のサンプリングなしでディシジョン ツリーをトレーニングする場合、考えられるすべての特徴がノードごとに考慮されます。

軸を合わせた条件

#df

決定木において、単一の特徴のみを含む条件。たとえば、領域が特徴である場合、軸を揃えた条件は次のようになります。

area > 200

斜体と対照的です。

B

バッグ

#df

アンサンブルをトレーニングするモデル。各構成のモデルが、置換でサンプリングされたトレーニング サンプルのランダムなサブセットでトレーニングされます。たとえば、ランダム フォレストは、バッグでトレーニングされた決定木のコレクションです。

バッグという用語は、bootstrap aggregation の略です。

バイナリ条件

#df

ディシジョン ツリーにおいて、想定される結果(通常は「はい」または「いいえ」)がある条件。たとえば、次のようなバイナリ条件があります。

temperature >= 100

ノンバイナリー条件と対照的です。

C

商品の状態(condition)

#df

ディシジョン ツリーで、式を評価する任意のノード。たとえば、ディシジョン ツリーの次の部分には、次の 2 つの条件が含まれています。

(x > 0)と(y > 0)の 2 つの条件で構成される決定木。

条件は、分割またはテストとも呼ばれます。

リーフとのコントラストの条件。

関連情報:

D

デシジョン フォレスト

#df

複数のディシジョン ツリーから作成されたモデル。ディシジョン フォレストは、そのディシジョン ツリーの予測を集約して予測を行います。一般的なタイプのデシジョン フォレストには、ランダム フォレスト勾配ブースティング ツリーなどがあります。

ディシジョン ツリー

#df

一連の条件離脱から構成される教師あり学習モデル。たとえば、ディシジョン ツリーは次のようになります。

4 つの条件から成るディシジョン ツリーで、階層的に配置されているため 5 つのリーフが作成されます。

E

エントロピー

#df

情報理論では、確率分布がどれほど予測不可能かが説明されます。エントロピーとは、各サンプルに含まれる情報の量としても定義されます。分布は、ランダム変数のすべての値が同等である可能性が高い場合に、可能な限り最高のエントロピーを持ちます。

2 つの有効な値 “0” と “1” を持つセットのエントロピー(たとえば、バイナリ分類問題のラベル)の式は次のとおりです。

H = -p ログ p - q ログ q = -p ログ p - (1-p) * ログ (1-p)

ここで

  • H はエントロピーです。
  • p は例の「1」の割合です。
  • q は、例の「0」の割合です。q = (1 - p) であることに注意してください。
  • log は通常 log2 です。この場合、エントロピー単位は少しです。

たとえば、次のように仮定します。

  • 100 の例には、値「1」が含まれます。
  • 300 の例には、「quot;0」という値が含まれています。

したがって、エントロピー値は次のようになります。

  • p = 0.25 です。
  • q = 0.75
  • H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 1 ビットあたり 0.81

完全にバランスの取れたセット(たとえば、200×1 と 200×1)の場合、エントロピーはサンプルあたり 1.0 ビットです。セットの不均衡が進むと、エントロピーは 0.0 に近づきます。

決定木では、エントロピーにより情報ゲインを定式化し、分類木の成長中にスプリッター条件を選択できるようにします。

エントロピーと以下を比較:

エントロピーは、シャノンのエントロピーと呼ばれることもあります。

F

特徴の重要度

#df

変数の重要度の類義語。

G

gini の不純物

#df

エントロピーに類似した指標。スプリッターは、gini の不純物またはエントロピーから導出された値を使用して、決定木条件を作成します。情報の獲得はエントロピーから導出されます。gini の不純物から派生した指標に、広く認められている用語はありません。ただし、この名前のない指標は情報のゲインと同じくらい重要です。

Gini の不純物は gini インデックスまたは gini とも呼ばれます。

勾配ブースティング

#df

強力なモデルの品質を向上させる(損失を低減する)ために、弱いモデルを繰り返しトレーニングするトレーニング アルゴリズム。たとえば、弱いモデルには線形または小規模なディシジョン ツリー モデルがあります。強力なモデルは、以前にトレーニングされたすべての弱いモデルの合計になります。

勾配ブースティングの最も単純な形式では、イテレーションごとに弱いモデルをトレーニングして、強いモデルの損失勾配を予測します。次に、勾配降下法と同様に、予測勾配を差し引くことで強力なモデルの出力が更新されます。

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

ここで

  • $F_{0}$ は開始型の強いモデルです。
  • 次の強力なモデルは $F_{i+1}$ です。
  • $F_{i}$ が現在の強力なモデルです。
  • $\xi$ は 0.0 から 1.0 までの値で、圧縮と呼ばれます。これは、勾配降下法における学習率に似ています。
  • $f_{i}$ は、$F_{i}$ の損失勾配を予測するようにトレーニングされた弱いモデルです。

勾配ブースティングの最新のバリエーションには、計算の損失の二次導関数(Hessian)も含まれています。

ディシジョン ツリーは、勾配ブースティングの弱いモデルとして一般的に使用されます。勾配ブースティング(決定)ツリーをご覧ください。

勾配ブースティング(決定)ツリー(GBT)

#df

デシジョン フォレストの一種。

I

推論パス

#df

決定木では、推論中に、特定のルートから他の条件に移動し、リーフで終端するルート。たとえば、次のディシジョン ツリーでは、太い矢印の矢印で示された特徴の例と次の特徴値を確認できます。

  • x = 7 の
  • y = 12
  • z = -3

次の図に示す推論パスは 3 つの条件を経てリーフ(Zeta)に到達します。

4 つの条件と 5 つのリーフで構成されるディシジョン ツリー
          ルート条件は (x > 0) です。答えはイエスなので、推論パスがルートから次の条件(y > 0)へと進んでいきます。答えはイエスなので、推論パスは次の条件(z > 0)に進みます。答えは「ノー」なので、推論パスはそのターミナルであるリーフ(Zeta)に移動します。

太い 3 本の矢印は推論パスを示しています。

情報の獲得

#df

決定フォレストでは、ノードのエントロピーと、その子ノードのエントロピーの加重(サンプル数による)の差。ノードのエントロピーとは、そのノードの例のエントロピーです。

たとえば、次のエントロピー値を考えてみましょう。

  • 親ノードのエントロピー = 0.6
  • 関連する 16 の例が含まれる 1 つの子ノードのエントロピー = 0.2
  • 24 の関連する例を持つ別の子ノードのエントロピー = 0.1

したがって、サンプルの 40% が 1 つの子ノードにあり、60% がもう 1 つの子ノードにあります。そのため、次のようになります。

  • 子ノードの加重エントロピー合計 = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

したがって、この情報は次のようになります。

  • 情報ゲイン = 親ノードのエントロピー - 子ノードの重み付きエントロピー合計
  • 情報ゲイン = 0.6 - 0.14 = 0.46

ほとんどのスプリッターは、情報を最大限に活用する条件の作成を試みます。

インセット条件

#df

ディシジョン ツリーにおいて、アイテムのセットに 1 つのアイテムが存在するかどうかを検証する条件。たとえば、以下はインセット条件です。

  house-style in [tudor, colonial, cape]

推論において、家のスタイルの特徴の値が tudorcolonial、または cape の場合、この条件は Yes と評価されます。ハウススタイルの対象物の値が他の値(ranch など)の場合、この条件は No と評価されます。

インセット条件は通常、ワンホット エンコーディング機能をテストする条件よりも効率的なディシジョン ツリーにつながります。

L

#df

ディシジョン ツリー内のエンドポイント条件とは異なり、リーフはテストを行いません。そうではなく、リーフという要素が予測可能です。リーフは推論パスのターミナルノードでもあります。

たとえば、次のディシジョン ツリーには 3 つのリーフが含まれています。

2 つの条件を含む決定木で 3 つのリーフがつながっています。

N

ノード(ディシジョン ツリー)

#df

決定木において、任意の条件またはリーフ

2 つの条件と 3 つのリーフを持つディシジョン ツリー

ノンバイナリー状態

#df

2 つ以上の結果が含まれる条件。たとえば、次の非バイナリの条件には、3 つの結果が含まれます。

3 つの結果につながる条件(number_of_legs = ?)1 つの結果(number_of_legs = 8)が、リーフと名付けられたクモの葉になります。2 番目の結果(number_of_legs = 4)は、犬という名前のリーフになります。3 番目の結果(number_of_legs = 2)は、ペンギンという名前の葉につながります。

O

斜体

#df

決定木において、複数の特徴が関係する条件。たとえば、高さと幅が両方とも特徴である場合、次のような条件が傾斜になります。

  height > width

対照的に、軸を合わせた条件になります。

手荷物評価(OOB)の評価

#df

ディシジョン フォレストの品質を評価するメカニズム。各ディシジョン ツリーを、そのディシジョン ツリーのトレーニングで使用されないでテストします。たとえば、次の図では、サンプルの約 3 分の 2 で各ディシジョン ツリーをトレーニングし、残りのサンプルの 1/3 に対して評価していることに注意してください。

3 つのディシジョン ツリーで構成されるディシジョン フォレスト。1 つのディシジョン ツリーは 3 分の 2 の例でトレーニングを行い、残りの 1/3 を OOB 評価に使用します。
2 つ目のディシジョン ツリーは、前述のディシジョン ツリーの例の 2/3 でトレーニングを行い、OOB 評価の 1/3 で前のディシジョン ツリーとは異なります。

バッグ外評価は、交差検証メカニズムで、計算効率と控えめな概算になります。交差検証では、交差検証のラウンドごとに 1 つのモデルがトレーニングされます(たとえば、10 回のモデルは 10 回の交差検証でトレーニングされます)。OOB 評価では、1 つのモデルをトレーニングします。バッキングはトレーニング中に各ツリーから一部のデータを除外するため、OOB 評価はそのデータを使用して交差検証を概算できます。

P

順列の変数重要度

#df

特徴の置き換えによるモデルの予測エラーの増加を評価する変数の重要度。順不変変数の重要度は、モデルに依存しない指標です。

R

ランダム フォレスト

#df

ディシジョン ツリーアンサンブル - 各ディシジョン ツリーがランダム化など特定のランダムノイズでトレーニングされます。

ランダム フォレストは、ディシジョン フォレストの一種です。

ルート

#df

決定木の開始ノード(最初の条件)。慣例により、図ではルートをディシジョン ツリーの最上位に配置します。 例:

2 つの条件と 3 つのリーフを持つディシジョン ツリー開始条件(x > 2)がルートです。

S

置換後のサンプリング

#df

同じ項目を複数回選択できる候補項目のセットから項目を選択する方法です。「置換あり」というフレーズは、選択するたびに、選択したアイテムが候補アイテムのプールに返されることを意味します。逆の手法である、置換なしのサンプリングでは、候補項目を 1 回しか選択できません。

たとえば、次の果物セットがあるとします。

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

システムが最初のアイテムとして fig をランダムに選択するとします。置換でサンプリングを使用すると、次のセットから 2 番目の項目が選択されます。

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

はい。以前と同じセットであるため、fig を再度選択する可能性があります。

置き換えなしのサンプリングを使用する場合は、いったん選択したサンプルを再度選択することはできません。たとえば、fig が最初のサンプルとしてランダムに選択された場合、fig を再度選択することはできません。したがって、システムは次の(リデュースされた)セットから 2 番目のサンプルを選択します。

fruit = {kiwi, apple, pear, cherry, lime, mango}

縮小

#df

過学習を制御する、勾配ブースティングハイパーパラメータ。勾配ブースの縮小は、勾配降下法における学習率に似ています。圧縮は、0.0 ~ 1.0 の小数値です。圧縮値を小さくすると、過度に小さい圧縮値よりも過学習が軽減されます。

分割

#df

ディシジョン ツリーにおいて、条件の別名。

スプリッター

#df

決定木のトレーニング中に、各ノードで最適な条件を見つけるためのルーティン(およびアルゴリズム)。

T

test

#df

ディシジョン ツリーにおいて、条件の別名。

しきい値(ディシジョン ツリーの場合)

#df

軸を揃えた条件の場合、特徴が比較される値。たとえば、75 は次の条件のしきい値です。

grade >= 75

V

変数の重要度

#df

モデルに対する各特徴の相対的な重要度を示すスコアのセット。

たとえば、住宅価格を推定するディシジョン ツリーを考えてみましょう。このディシジョン ツリーで 3 つの特徴(サイズ、年齢、スタイル)を使用するとします。3 つの特徴量の変数重要度のセットを {size=5.8, age=2.5, style=4.7} と計算した場合、サイズは意思決定ツリーで年齢やスタイルよりも重要になります。

変数の重要度の指標はさまざまであり、モデルのさまざまな側面について ML のエキスパートに伝えることができます。

W

多くの人々の知恵

#df

大人数のグループ(「群衆」)の意見や見積もりを平均すると、多くの場合、驚くほど良い結果が得られます。たとえば、ユーザーがジェラー ビーンの数を大きな瓶に入れて推測するゲームを考えてみましょう。ほとんどの推測は不正確になりますが、すべての推測の平均は、jar 内の実際のジェリービーンズの数に驚くほど近いことがわかりました。

Ensembles は、群衆の知恵に類似したソフトウェアです。個々のモデルで予測が大幅に不正確であっても、多くのモデルの予測を平均すると、多くの場合、驚くほど良い予測が生成されます。たとえば、個々のディシジョン ツリーは予測が悪い場合がありますが、ディシジョン フォレストは正確な予測を行うことがよくあります。