このページでは、デシジョン フォレストの用語集について説明します。すべての用語集の用語については、こちらをクリックしてください。
A
属性サンプリング
ディシジョン フォレストをトレーニングするための戦術。各ディシジョン ツリーは、条件を学習する際に、考えられる特徴のランダムなサブセットのみを考慮します。一般に、ノードごとに異なる特徴のサブセットがサンプリングされます。一方、属性サンプリングなしでディシジョン ツリーをトレーニングする場合は、ノードごとに可能性のあるすべての特徴が考慮されます。
軸に平行な条件
ディシジョン ツリーにおいて、1 つの特徴のみを含む条件。たとえば、面積が対象物の場合、軸に平行な条件は次のようになります。
area > 200
傾斜状態とは対照的です。
B
バッグ
各構成成分モデルが、置換でサンプリングされたトレーニング例のランダムのサブセットでトレーニングされるアンサンブルをトレーニングする方法。たとえば、ランダム フォレストは、バッグ処理でトレーニングされたディシジョン ツリーのコレクションです。
「バギング」という用語は、ブーストストラップの略称です。
バイナリ条件
ディシジョン ツリーで、結果の可能性が 2 つしかない条件(通常は yes または no)。たとえば、バイナリ条件は次のとおりです。
temperature >= 100
非バイナリ条件と比較します。
C
商品の状態(condition)
ディシジョン ツリーでは、式を評価する任意のノード。たとえば、ディシジョン ツリーの次の部分には 2 つの条件が含まれています。
条件はスプリットやテストとも呼ばれます。
条件を leaf と対比します。
関連項目:
D
デシジョン フォレスト
複数のディシジョン ツリーから作成されたモデル。デシジョン フォレストは、ディシジョン ツリーの予測を集計して予測を行います。一般的なデシジョン フォレストには、ランダム フォレストや勾配ブーストツリーがあります。
ディシジョン ツリー
階層的に編成された一連の条件conditionsとリーフconditionsで構成される教師あり学習モデル。たとえば、ディシジョン ツリーは次のようになります。
E
エントロピー
情報理論では、確率分布がどれほど予測不能であるかを記述します。エントロピーはまた、各例に含まれる情報の量として定義されます。確率変数のすべての値が等しく可能性がある場合、分布のエントロピーは最も高くなります。
「0」と「1」の 2 つの値を持つセット(バイナリ分類問題のラベルなど)のエントロピーは、次の式になります。
H = -p log p - q log q = -p log p - (1-p) × log (1-p)
ここで
- H はエントロピーです。
- p は、「1」の例に対する比率です。
- q は、「0」の例に対する割合です。なお、q = (1 - p)
- log は通常 log2 です。この場合、エントロピー単位はビットです。
たとえば、次のように仮定します。
- 100 件の例に値「1」が含まれています
- 300 件の例に値「0」が含まれています
したがって、エントロピー値は次のようになります。
- p = 0.25
- q = 0.75
- H = (-0.25)log2(0.25) - (0.75)log2(0.75) = 0.81 ビット(例)
完全にバランスが取れたセット(たとえば、200 個の「0」と 200 個の「1」)のエントロピーは例あたり 1.0 ビットです。集合が不均衡になると、エントロピーは 0.0 に向かって移動します。
ディシジョン ツリーでは、エントロピーによって情報獲得を定式化し、分類ディシジョン ツリーの成長中にスプリッタが条件を選択できるようにします。
エントロピーを次と比較:
エントロピーはよくシャノンのエントロピーと呼ばれます。
F
特徴の重要度
変数の重要度と同義。
G
ジニ不純物
エントロピーに似た指標。スプリッターは、ジニ不純物またはエントロピーから導出された値を使用して、分類ディシジョン ツリーの条件を作成します。情報ゲインはエントロピーから導出されます。gini 不純物から導出される指標と同じ意味で一般的に認められている用語はありませんが、この無名の指標は情報の増加と同じくらい重要です。
ジニ不純物は「gini インデックス」または単に「gini」とも呼ばれます。
勾配ブースト(決定)ツリー(GBT)
次のタイプのディシジョン フォレスト。
- トレーニングは、勾配ブーストに依存します。
- 弱いモデルはディシジョン ツリーです。
勾配ブースト
弱いモデルを反復的にトレーニングして、強いモデルの品質を改善(損失を低減)するトレーニング アルゴリズム。たとえば、弱いモデルは線形または小さなディシジョン ツリー モデルです。強いモデルは、以前にトレーニングしたすべての弱いモデルの合計になります。
勾配ブーストの最も単純な形式では、反復処理のたびに弱いモデルをトレーニングして、強いモデルの損失勾配を予測します。次に、勾配降下法と同様に、予測勾配を減算することで、強モデルの出力が更新されます。
ここで
- $F_{0}$ が最初の強力なモデルです。
- $F_{i+1}$ が次なる強力なモデルです。
- $F_{i}$ が現時点での最強モデルです。
- $\xi$ は 0.0 ~ 1.0 の値で収縮と呼ばれ、勾配降下法の学習率に似ています。
- $f_{i}$ は $F_{i}$ の損失勾配を予測するようにトレーニングされた弱いモデルです。
勾配ブーストの最新のバリエーションには、計算に損失の 2 次微分値(ヘッス)も含まれています。
ディシジョン ツリーは、勾配ブーストの弱いモデルとして一般的に使用されます。勾配ブースト(決定)ツリーをご覧ください。
I
推論パス
ディシジョン ツリーでは、推論中に、特定のサンプルがルートから他の条件にたどり、リーフで終了します。たとえば、次のディシジョン ツリーでは、太い矢印が次の特徴値を持つ例の推論パスを示しています。
- x = 7
- y = 12
- z = -3
次の図の推論パスは、リーフに到達する前に 3 つの条件を通過します(Zeta
)。
3 つの太い矢印は推論パスを示しています。
情報収集
デシジョン フォレストでは、ノードのエントロピーと、その子ノードのエントロピーの重み付けされた(サンプル数による)合計の差。ノードのエントロピーは、そのノード内のサンプルのエントロピーです。
たとえば、次のエントロピー値について考えてみましょう。
- 親ノードのエントロピー = 0.6
- 16 個の関連する例を持つ 1 つの子ノードのエントロピー = 0.2
- 24 個の関連する例を持つ別の子ノードのエントロピー = 0.1
したがって、サンプルの 40% が一方の子ノード、60% がもう一方の子ノードにあります。そのため、次のようになります。
- 子ノードの加重エントロピー合計 = (0.4 × 0.2) + (0.6 × 0.1) = 0.14
したがって、得られる情報は次のようになります。
- 情報ゲイン = 親ノードのエントロピー - 子ノードの加重エントロピー合計
- 情報ゲイン = 0.6 - 0.14 = 0.46
ほとんどのスプリッターは、情報を最大限に得られる条件を作成しようとします。
セット内の条件
ディシジョン ツリーにおいて、一連のアイテム内に 1 つのアイテムが存在するかどうかをテストする条件。たとえば、インセット条件は次のようになります。
house-style in [tudor, colonial, cape]
推論中に、家スタイルの特徴の値が tudor
、colonial
、または cape
の場合、この条件は「はい」と評価されます。家スタイルの対象物の値がそれ以外(ranch
など)の場合、この条件は「いいえ」と評価します。
インセット条件は通常、ワンホット エンコードされた特徴をテストする条件よりも効率的なディシジョン ツリーになります。
L
葉
ディシジョン ツリー内の任意のエンドポイント。条件とは異なり、リーフではテストは行われません。むしろ、リーフは可能性のある予測です。リーフは、推論パスの終端ノードでもあります。
たとえば、次のディシジョン ツリーには 3 つのリーフが含まれています。
N
ノード(ディシジョン ツリー)
ディシジョン ツリーでは、任意の条件またはリーフ。
ノンバイナリー条件
3 つ以上の結果を含む条件。たとえば、次のノンバイナリー条件には、3 つの結果が含まれます。
O
斜状態
ディシジョン ツリーにおいて、複数の特徴が関係する条件。たとえば、高さと幅の両方が特徴である場合、次の条件は傾斜となります。
height > width
axis-aligned condition と対照的。
バッグ外評価(OOB 評価)
ディシジョン ツリーのトレーニングで使用されていないサンプルに対して各ディシジョン ツリーをテストすることで、ディシジョン フォレストの品質を評価するメカニズム。たとえば次の図では、システムが各ディシジョン ツリーを約 3 分の 2 の例でトレーニングし、残りの 3 分の 1 の例に対して評価しています。
バッグ外評価は、交差検証メカニズムの計算効率と控えめな近似値です。交差検証では、交差検証ラウンドごとに 1 つのモデルがトレーニングされます(たとえば、10 回の交差検証で 10 個のモデルがトレーニングされます)。OOB 評価では、1 つのモデルがトレーニングされます。バギングではトレーニング中に各ツリーから一部のデータが保留されるため、OOB 評価ではそのデータを使用して交差検証の近似値を使用できます。
P
順列変数の重要度
特徴の値を並べ替えた後にモデルの予測誤差の増加を評価する変数の重要度のタイプ。順列変数の重要度は、モデルに依存しない指標です。
R
ランダム フォレスト
各ディシジョン ツリーは、バギングなどの特定のランダムノイズでトレーニングされるディシジョン ツリーのアンサンブル。
ランダム フォレストはディシジョン フォレストの一種です。
根
ディシジョン ツリーの開始ノード(最初の条件)。慣例的に、図では決定木の最上位にルートが配置されます。例:
S
置換を伴うサンプリング
同じアイテムを複数回選択できる候補アイテムのセットからアイテムを選択する方法。「置換あり」というフレーズは、各選択の後、選択されたアイテムが候補アイテムのプールに返されることを意味します。逆の方法である「置換なしのサンプリング」では、候補アイテムを 1 回だけ選択できます。
たとえば、次のフルーツセットについて考えてみましょう。
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
システムが最初の項目として fig
をランダムに選択するとします。置換ありのサンプリングを使用する場合、システムは次のセットから 2 番目の項目を選択します。
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
はい。これは前と同じセットであるため、システムが再び fig
を選択する可能性があります。
置換なしでサンプリングを使用する場合、一度選択すると、サンプルを再度選択することはできません。たとえば、システムが最初のサンプルとして fig
をランダムに選択した場合、fig
を再度選択することはできません。したがって、システムは次の(削減された)セットから 2 番目のサンプルを選択します。
fruit = {kiwi, apple, pear, cherry, lime, mango}
収縮
過学習を制御する勾配ブーストのハイパーパラメータ。勾配ブーストの縮小は、勾配降下法の学習率に似ています。収縮率は 0.0 ~ 1.0 の小数値です。圧縮値が低いほど、圧縮値を大きくするよりも過学習が小さくなります。
割り勘
ディシジョン ツリーにおける条件の別名。
スプリッター
ディシジョン ツリーのトレーニング中に、各ノードで最適な条件を見つけるルーチン(およびアルゴリズム)。
T
test
ディシジョン ツリーにおける条件の別名。
しきい値(ディシジョン ツリーの場合)
軸に平行な条件では、特徴の比較対象である値。たとえば、次の条件では 75 がしきい値です。
grade >= 75
V
変動する重要度
モデルに対する各特徴の相対的な重要度を示す一連のスコア。
たとえば、住宅価格の推定を行うディシジョン ツリーについて考えてみましょう。このディシジョン ツリーがサイズ、年齢、スタイルの 3 つの特徴を使用しているとします。3 つの特徴の可変重要度のセットが {size=5.8, age=2.5, style=4.7} と計算される場合、ディシジョン ツリーでは年齢やスタイルよりもサイズの方が重要になります。
変動する重要度の指標が存在するため、ML エキスパートはモデルのさまざまな側面について情報を得ることができます。
W
知識を身につける
多くの人々(「群衆」)の意見や推定値を平均化すると、多くの場合、驚くほど良い結果が得られます。たとえば、大きな瓶の中に入ったジェリービーンズの数を推測するゲームについて考えてみましょう。ほとんどの推測は正確ではありませんが、すべての推測の平均は、瓶の中に入っている実際のジェリー豆の数と驚くほど近いことが経験的にわかっています。
アンサンブルは、ソフトウェアで群衆の知恵に似たものです。 個々のモデルが非常に不正確な予測を行っていても、多くのモデルの予測を平均化すると、多くの場合、驚くほど良い予測が生成されます。たとえば、個々のディシジョン ツリーでは予測がうまくいかないかもしれませんが、ディシジョン フォレストではたいてい優れた予測が行われます。