検証セット: 直感を確認する

このモジュールを始める前に、トレーニングとテストセットで説明されているトレーニング プロセスを使用する際に問題がないかどうかを検討してください。

以下の選択肢をご覧ください。

モデル開発のイテレーションを促進するためにテストセットとトレーニング セットを使用するプロセスについて確認しました。反復処理のたびに、トレーニング データでトレーニングし、テストデータで評価します。テストデータの評価結果を使用して、学習率や特徴などのさまざまなモデルのハイパーパラメータの選択や変更を行います。この方法には何か問題があるでしょうか?(答えを 1 つだけ選択してください)。
まったく問題ありません。トレーニング データでトレーニングし、取り出した別のテストデータで評価します。
実はここに微妙な問題があります。この形式を何度も繰り返した場合にどうなるか考えてみてください。
この手順を何度も繰り返すと、特定のテストセットの特性に暗黙的に収まる可能性があります。
そのとおり!特定のテストセットで評価する頻度が高いほど、そのテストセットに暗黙的に過学習するリスクが高まります。次は、より適切なプロトコルを見てみましょう。
これは計算効率がよくありません。ハイパーパラメータのデフォルト セットを選択し、それらを使用してリソースを節約する必要があります。
このようなイテレーションには費用がかかりますが、モデル開発では重要な部分です。ハイパーパラメータの設定は、モデルの品質に大きな違いをもたらす可能性があります。最大限の品質を確保するために、常にある程度の時間と計算リソースを割り当てる必要があります。