Machine Learning | Google for Developers

ランダムフォレスト

ランダムフォレスト（RF）は、各ディシジョンツリーが特定のランダムノイズでトレーニングされるディシジョンツリーのアンサンブルです。ランダムフォレストは、ディシジョンツリーアンサンブルで最も一般的な形式です。このユニットでは、効果的なランダムフォレストを構築する可能性を高めるために、独立したディシジョンツリーを作成するいくつかの手法について説明します。

バギング

Bagging（bootstrap aggregating）とは、トレーニングセット内のサンプルのランダムなサブセットで各ディシジョンツリーをトレーニングすることを意味します。つまり、ランダムフォレストの各ディシジョンツリーは、サンプルの異なるサブセットでトレーニングされます。

バギングは特殊です。各ディシジョンツリーは、元のトレーニングセットと同じ数のサンプルでトレーニングされます。たとえば、元のトレーニングセットに 60 個のサンプルが含まれている場合、各決定木は 60 個のサンプルでトレーニングされます。ただし、バギングでは、これらの例のサブセット（通常は 67%）でのみ各ディシジョンツリーをトレーニングします。したがって、特定のディシジョンツリーをトレーニングする際に、サブセット内の 40 個のサンプルの一部を再利用する必要があります。この再利用は「置換あり」のトレーニングと呼ばれます。

たとえば、表 6 は、バギングで 6 つのサンプルを 3 つのディシジョンツリーに分散する方法を示しています。次の点に注意してください。

各ディシジョンツリーは、合計 6 個のサンプルでトレーニングされます。
各ディシジョンツリーは、異なるサンプルセットでトレーニングされます。
各ディシジョンツリーは特定の例を再利用します。たとえば、例 4 はトレーニングディシジョンツリー 1 で 2 回使用されるため、ディシジョンツリー 1 では例 4 の学習済み重みが実質的に 2 倍になります。

表 6. 3 つのディシジョンツリーに 6 つのトレーニングサンプルをバギングします。各数値は、特定のトレーニング例（#1 ～ 6）が特定の分類ツリー（1 ～ 3）のトレーニングデータセットで繰り返される回数を表します。

	トレーニングサンプル
	#1	#2	#3	#4	#5	#6
元のデータセット	1	1	1	1	1	1
ディシジョンツリー 1	1	1	0	2	1	1
ディシジョンツリー 2	3	0	1	0	2	0
ディシジョンツリー 3	0	1	3	1	0	1

バギングでは、ほとんどの場合、各決定木は元のトレーニングセットの全サンプル数でトレーニングされます。各ディシジョンツリーをより多くの例またはより少ない例でトレーニングすると、ランダムフォレストの品質が低下する傾向があります。

元のランダムフォレストに関する論文には記載されていませんが、サンプルのサンプリングは「入れ替えなし」で行われる場合もあります。つまり、トレーニングサンプルをディシジョンツリートレーニングセットに複数回含めることはできません。たとえば、上の表では、すべての値が 0 または 1 になります。

YDF コード

置換なしのトレーニングを有効にするには、YDF で次の割り当てを使用します。bootstrap_training_dataset=False

属性サンプリング

属性サンプリングとは、使用可能なすべての特徴に対して最適な条件を探すのではなく、各ノードで特徴のランダムなサブセットのみをテストすることを意味します。テスト対象の特徴セットは、ディシジョンツリーの各ノードでランダムにサンプリングされます。

次の意思決定ツリーは、属性 / 特徴のサンプリングを示しています。ここでは、5 つの特徴量（f1 ～ f5）でディシジョンツリーがトレーニングされています。青いノードはテスト対象の機能を示し、白いノードはテスト対象外です。条件は、テストが最も行われた特徴（赤い枠線で示されています）から作成されます。

3 つのノード。すべて 5 つの特徴を示しています。ルートノードとその子ノードの 1 つは、5 つの機能のうち 3 つをテストします。他の子ノードは、5 つの機能のうち 2 つをテストします。

図 21. 属性サンプリング。

属性サンプリングの比率は、重要な正則化ハイパーパラメータです。上の図では、約 ⅗ の比率を使用しています。多くのランダムフォレスト実装では、デフォルトで回帰の場合は特徴量の 1/3、分類の場合は sqrt（特徴量の数）をテストします。

TF-DF では、次のハイパーパラメータによって属性サンプリングが制御されます。

num_candidate_attributes
num_candidate_attributes_ratio

たとえば、num_candidate_attributes_ratio=0.5 の場合、各ノードで特徴の半分がテストされます。

ディシジョンツリーの正則化を無効にする

ランダムフォレストの個々のディシジョンツリーは、プルーニングなしでトレーニングされます。（過剰適合とプルーニングをご覧ください）。これにより、予測品質が低下する過度に複雑なツリーが生成されます。個々のツリーを正規化する代わりに、ツリーをアンサンブルして、より正確な全体的な予測を生成します。

ランダムフォレストのトレーニング精度とテスト精度は異なることが想定されます。ランダムフォレストのトレーニング精度は通常ははるかに高くなります（100% に等しい場合もあります）。ただし、ランダムフォレストのトレーニング精度が非常に高いことは正常であり、ランダムフォレストが過剰適合していることを示すものではありません。

2 つのランダム性（バギングと属性サンプリング）により、決定木間の相対的な独立性が確保されます。この独立性により、個々のディシジョンツリーの過剰適合が修正されます。その結果、アンサンブルは過剰適合しません。この直感に反する効果については、次のユニットで説明します。

純粋なランダムフォレストは、リーフあたりの最大深度や最小観測数なしでトレーニングします。実際には、リーフあたりの最大深度と最小観測数を制限することをおすすめします。デフォルトでは、多くのランダムフォレストは次のデフォルトを使用します。

最大深度: 約 16
リーフあたりの最小観測数は 5 程度です。

これらのハイパーパラメータは調整できます。

YDF コード

YDF のチューナーは、ハイパーパラメータを簡単にチューニングできる方法です。詳細については、YDF のチューニングチュートリアルをご覧ください。

ノイズの明瞭度

ランダムなノイズがランダムフォレストの品質を向上させるのはなぜですか？ランダムなノイズの利点を示すために、図 22 に、楕円形パターンの単純な 2 次元問題のいくつかの例でトレーニングされた、従来の（剪定された）ディシジョンツリーとランダムフォレストの予測を示します。

楕円形のパターンは、軸に沿った条件でディシジョンツリーアルゴリズムとディシジョンフォレストアルゴリズムが学習するのが非常に難しいことで知られているため、良い例になります。剪定されたディシジョンツリーは、ランダムフォレストと同じ予測品質を得ることはできません。

3 つのイラスト。最初の図（グラウンドトゥルース）は完全な楕円です。2 つ目のイラスト（「削減されたディシジョンツリー」）は、楕円と長方形の中間のような形状です。3 つ目の図（ランダムフォレスト）は楕円ではありませんが、プルーニングされたディシジョンツリーという図よりも楕円に近いものです。

図 22. グラウンドトゥルースと、単一の剪定済み決定木によって生成された予測とランダムフォレストによって生成された予測。

次のグラフは、ランダムフォレストの最初の 3 つの剪定されていないディシジョンツリーの予測を示しています。つまり、これらのディシジョンツリーはすべて、次の組み合わせでトレーニングされています。

バギング
属性サンプリング
プルーニングを無効にする

これらの 3 つのディシジョンツリーの個々の予測は、上の図の剪定されたディシジョンツリーの予測よりも劣ることに注意してください。ただし、個々のディシジョンツリーの誤差は弱く相関しているため、3 つのディシジョンツリーをアンサンブルで組み合わせて、効果的な予測を作成します。

ノイズの多い 3 つの楕円。

図 23. 効果的なアンサンブルを構築する、3 つの未剪定ディシジョンツリー。

ランダムフォレストのディシジョンツリーはプルーニングされないため、ランダムフォレストのトレーニングに検証データセットは必要ありません。実際には、特に小規模なデータセットでは、利用可能なすべてのデータでモデルをトレーニングする必要があります。

ランダムフォレストをトレーニングする際、ディシジョンツリーを追加すると、ほとんどの場合エラーが減少します。つまり、モデルの品質が向上します。はい。ほとんどの場合、決定木を追加すると、ランダムフォレストのエラーは減少します。つまり、決定木を追加しても、ランダムフォレストのオーバーフィッティングは発生しません。ある時点で、モデルの改善は停止します。Leo Breiman は、「ランダムフォレストは、ツリーを追加しても過剰適合しない」と有名な言葉を残しています。

たとえば、次のグラフは、ディシジョンツリーが追加されたときのランダムフォレストモデルのテスト評価を示しています。精度は急速に向上し、0.865 付近で横ばいになります。ただし、ディシジョンツリーを追加しても精度が低下することはありません。つまり、モデルが過剰適合することはありません。この動作は（ほとんどの場合）常に true であり、ハイパーパラメータとは関係ありません。

前の段落で説明した精度とディシジョンツリーの数の関係を示すグラフ。

図 24. ランダムフォレストにより多くのディシジョンツリーが追加されても、精度は一定に保たれます。

はじめに

理解度を確認する