Regularyzacja dla prostoty: regularyzacja L2

Przyjrzyj się tej krzywej uogólnienia, która pokazuje stratę zarówno w przypadku zbioru treningowego, jak i zestawu do walidacji w porównaniu z liczbą iteracji trenowania.

Funkcja straty w zestawie treningowym stopniowo się maleje. Z kolei funkcja straty w zbiorze walidacji odmawia, ale potem zaczyna rosnąć.

Rysunek 1. Utrata zbioru treningowego i zbioru do walidacji.

Rysunek 1 przedstawia model, w którym utrata trenowania stopniowo się zmniejsza, ale w końcu utrata walidacji wzrasta. Innymi słowy, ta krzywa uogólnienia pokazuje, że model dopasowuje się do danych w zbiorze treningowym. Jeśli będziemy kierować się wewnętrznym Ockhamem, być może moglibyśmy zapobiec nadmiernemu dopasowaniu, nakładając kary na złożone modele, co jest nazywane regularizacją.

Innymi słowy, zamiast dążyć po prostu do zminimalizowania strat (empirycznej minimalizacji ryzyka):

$$\text{minimize(Loss(Data|Model))}$$

minimalizujemy teraz złożoność straty i złożoności, co jest nazywane minimalizacją ryzyka strukturalnego:

$$\text{minimize(Loss(Data|Model) + complexity(Model))}$$

Nasz algorytm optymalizacji trenowania jest teraz funkcją 2 terminów: okresu utraty, który określa, jak dobrze model pasuje do danych, i terminu regularyzacji, który mierzy złożoność modelu.

Kurs „Crash Course” dotyczący systemów uczących się skupia się na 2 częstych (i pewnie ze sobą powiązanych) sposobach myślenia o złożoności modelu:

  • Złożoność modelu jako funkcja wag wszystkich cech w modelu.
  • Złożoność modelu jako funkcja łącznej liczby cech o wadze innej niż zero. Podejście to omawiamy w późniejszym module.

Jeśli złożoność modelu jest funkcją wag, waga cechy z wysoką wartością bezwzględną jest bardziej złożona niż waga cechy o niskiej wartości bezwzględnej.

Złożoność można obliczyć ilościowo za pomocą formuły regularyzacji L2, która określa termin regularyzacji jako sumę kwadratów wszystkich wag cech:

$$L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 + ... + w_n^2}$$

W przypadku tej formuły wagi bliskie zera mają niewielki wpływ na złożoność modelu, a wagi odstające mogą mieć ogromny wpływ.

Przykładem może być model liniowy o tych wagach:

$$\{w_1 = 0.2, w_2 = 0.5, w_3 = 5, w_4 = 1, w_5 = 0.25, w_6 = 0.75\}$$

Ma termin regularyzacji L2 o wartości 26,915:

$$w_1^2 + w_2^2 + \boldsymbol{w_3^2} + w_4^2 + w_5^2 + w_6^2$$ $$= 0.2^2 + 0.5^2 + \boldsymbol{5^2} + 1^2 + 0.25^2 + 0.75^2$$ $$= 0.04 + 0.25 + \boldsymbol{25} + 1 + 0.0625 + 0.5625$$ $$= 26.915$$

Jednak wartość \(w_3\) (pogrubiona powyżej) w przypadku podniesionej do kwadratu wartości 25 zwiększa złożoność. Suma kwadratów wszystkich 5 pozostałych wag powoduje dodanie 1,915 do hasła regularyzacji L2.