Nadmierne dopasowanie: interpretacja krzywych straty

Uczenie maszynowe byłoby znacznie prostsze, gdyby wszystkie krzywe strat wyglądały tak samo przy pierwszym trenowaniu modelu:

Rysunek 20. Wykres przedstawiający idealną krzywą straty podczas trenowania modelu uczenia maszynowego. Krzywa strat przedstawia stratę na osi y, a liczba kroków trenowania na osi x. Wraz ze wzrostem liczby etapów treningu strata zaczyna się od wysokiej wartości, a potem maleje wykładniczo, aż w końcu osiąga minimum.
Rysunek 20. Idealna krzywa strat

Niestety krzywe strat są często trudne do zinterpretowania. Wykorzystaj swoją intuicję dotyczącą krzywych strat, aby rozwiązać ćwiczenia na tej stronie.

Ćwiczenie 1. Oscylacyjna krzywa strat

Rysunek 21. Krzywa strat (straty na osi y, liczba kroków trenowania na osi x), w której straty nie ulegają spłaszczeniu.
            Zamiast tego straty zmieniają się w nieregularny sposób.
Rysunek 21. Krzywa oscylacyjna utraty.
Jakie 3 rzeczy możesz zrobić, aby poprawić krzywą strat przedstawioną na rysunku 21?
Porównaj swoje dane ze schematem danych, aby wykryć złe przykłady, a potem usuń je ze zbioru treningowego.
Tak, to dobra praktyka w przypadku wszystkich modeli.
zmniejszyć tempo nauki;
Tak, zmniejszanie szybkości uczenia się często jest dobrym pomysłem podczas debugowania problemu z trenowaniem.
Zmniejsz zbiór treningowy do niewielkiej liczby wiarygodnych przykładów.
Chociaż ta technika brzmi sztucznie, w istocie jest dobrym pomysłem. Zakładając, że model zbiega się na małym zbiorze wiarygodnych przykładów, możesz stopniowo dodawać więcej przykładów, aby sprawdzić, które z nich powodują wahania krzywej strat.
Zwiększ liczbę przykładów w zbiorze treningowym.
To kusząca propozycja, ale jest bardzo mało prawdopodobne, że rozwiąże Twój problem.
Zwiększ tempo uczenia się.
Ogólnie unikaj zwiększania szybkości uczenia się, gdy krzywa uczenia się modelu wskazuje na problem.

Ćwiczenie 2. Krzywa strat z ostrym skokiem

Rysunek 22. Wykres krzywej straty, który pokazuje, że straty maleją do określonej liczby kroków treningu, a potem nagle wzrastają wraz z dalszymi krokami treningu.
Rysunek 22. Gwałtowny wzrost strat.
Które 2 z podanych stwierdzeń wskazują na możliwe przyczyny gwałtownego wzrostu strat widocznego na rysunku 22?
Dane wejściowe zawierają co najmniej 1 wartość NaN, np. wartość spowodowaną dzieleniem przez 0.
Jest to częstsze zjawisko, niż mogłoby się wydawać.
Dane wejściowe zawierają dużą liczbę wartości odstających.
Czasami z powodu nieprawidłowego mieszania partii partia może zawierać wiele wartości odstających.
Zbyt niski współczynnik uczenia się.
Bardzo niskie tempo uczenia się może wydłużyć czas trenowania, ale nie jest przyczyną dziwnej krzywej straty.
Współczynnik regularyzacji jest za wysoki.
To prawda, że bardzo wysoka regularyzacja może uniemożliwić modelowi konwergencję, ale nie spowoduje dziwnej krzywej utraty przedstawionej na rysunku 22.

Ćwiczenie 3. Strata w testach różni się od straty w treningu

Rysunek 23. Krzywa strat podczas trenowania zdaje się zbiegać, ale po pewnym czasie straty weryfikacji zaczynają rosnąć.
Rysunek 23. gwałtowny wzrost strat z powodu nieprawidłowej weryfikacji;
Które z tych stwierdzeń najlepiej opisuje przyczynę tej różnicy między krzywą utraty funkcji celu w przypadku zbiorów danych do trenowania i testowania?
Model zbyt dobrze pasuje do zbioru treningowego.
Tak, prawdopodobnie tak jest. Możliwe rozwiązania:
  • Uprość model, np. przez zmniejszenie liczby cech.
  • Zwiększ stopień regularyzacji.
  • Upewnij się, że zbiór treningowy i testowy są statystycznie równoważne.
Tempo uczenia się jest za wysokie.
Gdyby szybkość uczenia się była zbyt wysoka, krzywa strat dla zbioru treningowego prawdopodobnie nie wyglądałaby tak samo.

Ćwiczenie 4. Krzywa strat się zacina

Rysunek 24. Wykres krzywej utraty pokazujący, jak utrata zaczyna się zbliżać do trenowania, a potem wyświetla powtarzające się wzorce, które wyglądają jak prostokątna fala.
Rysunek 24. Chaotyczna utrata po określonej liczbie kroków.
Które z tych stwierdzeń jest najbardziej prawdopodobnym wyjaśnieniem nieregularnej krzywej strat pokazanej na rysunku 24?
Zbiór danych do trenowania nie jest dobrze posortowany.
To jest możliwe. Na przykład zbiór treningowy zawierający 100 obrazów psów, a potem 100 obrazów kotów może powodować wahania wartości funkcji utraty podczas trenowania modelu. Dokładnie wymieszaj przykłady.
Współczynnik regularyzacji jest za wysoki.
Jest to mało prawdopodobne.
zbiór treningowy zawiera zbyt wiele cech;
Jest to mało prawdopodobne.