以下の選択肢をご確認ください。
モデル開発の反復処理を推進するために、テストセットとトレーニング セットを使用するプロセスを見てきました。反復処理ごとにトレーニング データのトレーニングと評価を行います。テストデータの評価結果を使用して、学習率や特徴などのさまざまなモデルのハイパーパラメータの選択と変更を指定します。このアプローチに何か問題はありますか?1 つ選択してください。
問題ありません。トレーニング データのトレーニングと、別個に保留されたテストデータの評価です。
実はここに微妙な問題があります。このフォームを何度も繰り返すとどうなるかを考えてみてください。
この手順を何度か繰り返すと、特定のテストセットの特性に暗黙的に適合する場合があります。
はい。特定のテストセットで頻繁に評価するほど、そのテストセットに暗黙的に過学習が発生するリスクが高くなります。次に、より優れたプロトコルについて説明します。
これは計算効率が悪くなります。デフォルトのハイパーパラメータ セットを選択するだけです。リソースを節約するためにそれらを使用してください。
このような反復処理は高額ですが、モデル開発の重要な要素です。ハイパーパラメータの設定は、モデルの品質に大きな違いをもたらす可能性があります。可能な限り最善の品質を確保するために、時間とコンピューティング リソースを常に割り当てる必要があります。