Zmniejszanie strat

Aby wytrenować model, musimy znaleźć dobry sposób na zmniejszenie jego strat. Podejście iteratyczne to jedna z powszechnie stosowanych metod zmniejszania straty. Jest równie łatwa i skuteczna jak zejście ze zbocza.

Zmniejszanie strat

  • Hiperparametry to ustawienia konfiguracji używane do dostrajania sposobu trenowania modelu.
  • Pochodna funkcji (y–y')2 w odniesieniu do wag i odchylenia mówi nam, jak zmienia się utrata w danym przykładzie
    • Proste do obliczenia i wypukłe
  • Dlatego regularnie podejmujemy małe kroki w kierunku zminimalizowanym
    • Nazywamy je krokami z gradientem (ale są to bardzo negatywne kroki gradientowe).
    • Strategia ta nosi nazwę Spadek gradientu.
Cykl przechodzenia od cech i etykiet do modeli i prognoz.
  • W przypadku problemów wypukłych wagi mogą zaczynać się w dowolnym miejscu (np. wszystkie zera)
    • Wypukła: wyobraź sobie kształt miski
    • Tylko jedna wartość minimalna
Wykres w kształcie misy wypukłej
  • W przypadku problemów wypukłych wagi mogą zaczynać się w dowolnym miejscu (np. wszystkie zera)
    • Wypukła: wyobraź sobie kształt miski
    • Tylko jedna wartość minimalna
  • Zapowiedzi: nieprawda w przypadku sieci neuronowych
    • Niewypukłe: pomyśl o skrzynce na jajka
    • Więcej niż jedna wartość minimalna
    • Duża zależność od wartości początkowych
Wykres w kształcie misy wypukłej z wieloma lokalnymi minima
  • Możliwe, że w każdym kroku gradient może obejmować cały zbiór danych, ale okazuje się, że nie jest to konieczne.
  • Obliczanie gradientu na małych próbkach danych działa dobrze
    • Na każdym kroku pobieraj nową próbkę losową
  • Stopień gradientu szstokastycznego: przykład po jednym naraz.
  • Mini-Batch Gradient Descent: partie po 10–1000 znaków
    • Straty i gradienty są uśredniane w wsadzie