デシジョン フォレストの適切なデータ

デシジョン フォレストは、表形式のデータセット(スプレッドシート、csv ファイル、データベース テーブルで表す可能性のあるデータ)がある場合に最も効果的です。表形式データは最も一般的なデータ形式の 1 つであり、モデリングには、デシジョン フォレストが頼りになるソリューションです。

表 1. 表形式のデータセットの例。

区間数 目の数 重量 (ポンド) 種(ラベル)
2 2 12 ペンギン
8 6 0.1 クモ
4 2 44

ニューラル ネットワークとは異なり、デシジョン フォレストはモデルの表形式データをネイティブに消費します。デシジョン フォレストを開発する場合、次のようなタスクを行う必要はありません。

  • 特徴の正規化やワンホット エンコードなどの前処理を実行する。
  • 補完を実行します(欠損値を -1 に置き換えるなど)。

ただし、デシジョン フォレストは表形式以外のデータ(非構造化データとも呼ばれます)を直接使用するのには適していません。はい、この制限の回避策は存在しますが、一般にニューラル ネットワークは非構造化データの取り扱い方が適切です。

Performance

デシジョン フォレストはサンプル効率が良い。つまり、デシジョン フォレストは、小規模なデータセットや、特徴数 / サンプル数の割合が高い(おそらく 1 より大きい)データセットでのトレーニングに適しています。ディシジョン フォレストは、すべての機械学習モデルと同様にサンプル効率が優れていますが、十分なデータがあるときに最も効果を発揮します。

デシジョン フォレストは通常、同等のニューラル ネットワークよりも速く推論できます。たとえば、中規模のディシジョン フォレストでは、最新の CPU に対して数マイクロ秒の推論が行われます。