損失削減

モデルをトレーニングするには、モデルの損失を削減する適切な方法が必要です。反復アプローチは損失を削減するために広く使用されている方法の 1 つであり、丘を歩くのと同じくらい簡単で効率的です。

損失の低減

  • ハイパーパラメータは、モデルのトレーニング方法を調整するための構成設定です。
  • 重みとバイアスに関する (y - y')2 の導関数から、ある例における損失がどのように変化するかがわかります。
    • コンピューティングが容易でコンベックス
  • そこで、損失が最小になる方向に小さなステップを
    • これを勾配ステップと呼びます(実際には負の勾配ステップ)
    • この戦略を勾配降下法と呼びます。
特徴とラベルからモデルと予測に移行するサイクル
  • 凸問題の場合、重みはどこにでも開始できる(たとえば、すべて 0)
    • 凸形状: お皿の形状を考える
    • 最低 1 つのみ
凸ボウル形状のグラフ
  • 凸問題の場合、重みはどこにでも開始できる(たとえば、すべて 0)
    • 凸形状: お皿の形状を考える
    • 最低 1 つのみ
  • 予測: ニューラル ネットには当てはまらない
    • 非凸形: 卵箱を思い浮かべてください
    • 最小値を超えています
    • 初期値への強い依存
複数の極小値を持つ凸ボウル型のグラフとグラフ
  • 各ステップでデータセット全体の勾配を計算できますが、その必要はありませんでした
  • 小規模なデータサンプルに対する勾配計算がうまく機能する
    • 各ステップで新しいランダムなサンプルを取得する
  • 確率的勾配降下法: 一度に 1 つの例
  • ミニバッチの勾配降下法: 10 ~ 1,000 のバッチ
    • バッチで損失と勾配が平均化される