一般化

一般化とは、モデルの作成に使用したものと同じ分布から抽出した、以前は見たことのない新しいデータに適切に適応することを指します。

一般化

モデル、予測、サンプルのサイクル、真の分布の検出、さらなるサンプリング
  • 目標: 実際の(隠れた)分布から得られた新しいデータについて、高い精度で予測する。
  • 問題: 事実がわからない
    • そこからサンプリングするだけです。
モデル、予測、サンプルのサイクル、真の分布の検出、さらなるサンプリング
  • 目標: 実際の(隠れた)分布から得られた新しいデータについて、高い精度で予測する。
  • 問題: 事実がわからない
    • そこからサンプリングするだけです。
  • モデル h が現在のサンプルにうまく適合する場合、他の新しいサンプルでうまく予測できるかを信頼できる。
  • 理論上、
    • 興味深い分野: 一般化理論
    • モデルのシンプルさ / 複雑度の測定に関するアイデアに基づく
  • 直感: オッカムの「かみそり」の原則の定型化
    • モデルが複雑すぎるほど、サンプルの特殊性だけでなく、優れた経験的結果が得られる可能性が高くなります。
  • 経験的に:
    • 尋ねる: モデルは新しいデータサンプルでうまく機能するか。
    • 評価: テストセットに対するデータ呼び出しの新しいサンプルを取得します。
    • テストセットのパフォーマンスが良好であることは、一般的に新しいデータのパフォーマンスが良好であることを示す指標となります。
      • テストセットが十分に大きい場合
      • テストセットを何度も使用してチートしなかった場合

上記の 3 つの基本的な前提条件:

  1. 分布からランダムに独立して、同一(つまり)にサンプルを取得します。
  2. 分布は静止: 時間とともに変化しない
  3. トレーニング、検証、テストセットなど、常に同じディストリビューションから取得します。