Ta strona została przetłumaczona przez Cloud Translation API.

Zmniejszanie strat: spadek gradientu

Schemat podejścia iteracyjnego (Rysunek 1) zawierał zielone, ręcznie kształtowane pole o nazwie „Aktualizacje parametrów obliczeniowych”. Teraz zastąpimy ten algorytmiczny pyłkiem z gatunku bardziej istotną rolę.

Załóżmy, że mamy czas i zasoby obliczeniowe do obliczenia straty dla wszystkich możliwych wartości $w_1$. W przypadku analizowanych przez nas problemów związanych z regresją wynikowy wykres straty i $w_1$ zawsze będzie wypukły. Innymi słowy, fabuła ma zawsze kształt miski, w ten sposób:

Wykres krzywej w kształcie litery U z oś pionową etykietą „utrata”, a oś poziomą – wartością wagi W i.

Rysunek 2. Problemy z regresją powodują utratę wypukłości a wykresy wagi.

Zadania wypukłe mają tylko jedną wartość minimalną, czyli tylko jedno miejsce, gdzie nachylenie ma dokładnie 0. To minimum oznacza punkt zbiegu funkcji straty.

Obliczenie funkcji straty dla każdej możliwej wartości $w_1$w całym zbiorze danych nie jest skutecznym sposobem na znalezienie punktu zbieżności. Przyjrzyjmy się lepszemu mechanizmowi – bardzo popularnemu w systemach uczących się – obniżaniu gradientu.

Pierwszy etap to wybór wartości początkowej (punktu początkowego) dla elementu $w_1$. Punkt początkowy nie ma większego znaczenia. Dlatego wiele algorytmów po prostu ustawia wartość $w_1$ na 0 lub wybiera losową wartość. Ten wykres pokazuje, że wybraliśmy punkt początkowy nieco większy niż 0:

Wykres krzywej w kształcie litery U. Punkt, który znajduje się mniej więcej w połowie lewej strony krzywej, jest oznaczony etykietą „Punkt początkowy”.

Rysunek 3. Punkt początkowy opadania gradientowego.

Algorytm ze spadkiem gradientu oblicza następnie gradient krzywej straty w punkcie początkowym. Na Rysunku 3 gradient straty jest równy pochodnej (nachylenia) krzywej i wskazuje, która strona jest „ciepła” czy „zimniejsza”. Gdy istnieje wiele wag, gradient jest wektorem pochodnych cząstkowych względem wag.

Kliknij ikonę plusa, aby dowiedzieć się więcej o cząstkowych pochodnych i gradientach.

Matematyka związana z systemami uczącymi się jest fascynująca. Cieszymy się, że klikasz ten link, aby dowiedzieć się więcej. Pamiętaj jednak, że TensorFlow obsługuje wszystkie obliczenia gradientu za Ciebie, więc nie musisz rozumieć podanych tu obliczeń.

Częściowe pochodne

Funkcja wielozmienna to funkcja z więcej niż 1 argumentem, na przykład:

$$f(x,y) = e^{2y}\sin(x)$$

Pochodna cząstkowa $f$ w odniesieniu do $x$, oznaczana w następujący sposób:

$$ \partial f \over \partial x $$

jest pochodną funkcji $f$ uznawanej jako funkcja $x$. Aby znaleźć:

$$\partial f \over \partial x $$

musisz mieć $y$ stałą (czyli $f$ stanowić teraz funkcję jednej zmiennej $x$) i wybrać regularną pochodną $f$w odniesieniu do $x$. Jeśli np. $y$ ma stałą wartość 1, poprzednia funkcja staje się:

$$ f(x) = e^2\sin(x) $$

To jest funkcja tylko jednej zmiennej $x$, której pochodną jest:

$$ e^2\cos(x) $$

Ogólnie rzecz biorąc, $y$ pochodna cząstkowa $f$ z uwzględnieniem $x$ jest obliczana w ten sposób:

$$\frac{\partial f}{\partial x}(x,y) = e^{2y}\cos(x)$$

Jeśli natomiast ustawimy $x$ ustalenie, cząstkowa pochodna $f$ z uwzględnieniem $y$ jest:

$$ \frac{\partial f}{\partial y}(x,y) = 2e^{2y}\sin(x) $$

Intuicyjnie cząstkowa pochodna informuje, jak bardzo funkcja się zmienia, gdy trochę zmienisz zmienną. W poprzednim przykładzie:

$$ \frac{\partial f}{\partial x} (0,1) = e^2 \approx 7.4 $$

Dlatego gdy zaczniesz od $(0,1)$, utrzymuj $y$ nieustannie i nieco się ruszaj $x$ $f$ zmienia się o około 7,4 raza więcej niż zmiana $x$.

W systemach uczących się pochodne częściowe są najczęściej stosowane w połączeniu z gradientem funkcji.

Gradienty

Gradient funkcji, opisany poniżej, to wektor pochodnych częściowych w odniesieniu do wszystkich niezależnych zmiennych:

$$ \nabla f $$

Na przykład, jeśli:

$$ f(x,y) = e^{2y}\sin(x) $$

to:

$$\nabla f(x,y) = \left(\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)\right) = (e^{2y}\cos(x), 2e^{2y}\sin(x))$$

Pamiętaj:

$$\nabla f$$	Punkty w kierunku największego wzrostu funkcji.
$$ {-\nabla f} $$	Punkty w kierunku największego spadku funkcji.

Liczba wymiarów we wektorze jest równa liczbie zmiennych we wzorze funkcji $f$. Inaczej mówiąc, wektor mieści się w przestrzeni domeny funkcji. Na przykład wykres funkcji $f(x,y)$:

$$ f(x,y) = 4 + (x - 2)^2 + 2y^2 $$

w 3 wymiarach: $z = f(x,y)$ wygląda jak dolina, przy czym minimalnie $(2,0,4)$wynosi:

Gradient $f(x,y)$ jest dwuwymiarowym wektorem, który wskazuje$(x,y)$ kierunek, w którym należy się poruszać, aby uzyskać maksymalną wysokość. W ten sposób wartość ujemna gradientu przesuwa się w kierunku maksymalnego zmniejszenia wysokości. Inaczej mówiąc, wartość ujemna wektora gradientu jest skierowana w dolinę.

W systemach uczących się gradienty są używane przy obniżeniu gradientu. Często mamy funkcję straty wielu zmiennych, które próbujemy zminimalizować. Aby to osiągnąć, staramy się postępować zgodnie z ujemnym gradientem funkcji.

Pamiętaj, że gradient jest wektorem, więc charakteryzuje się obie te cechy:

kierunek
siła

Gradient zawsze wskazuje kierunek najsilniejszego wzrostu funkcji straty. Algorytm gradientu malejącego robi krok w kierunku ujemnego gradientu, by jak najszybciej zredukować stratę.

Wykres krzywej w kształcie litery U. Punkt po lewej stronie krzywej jest oznaczony etykietą „Punkt początkowy”. Strzałka oznaczona jako „gradient ujemny” wskazuje od tego miejsca w prawo.

Rysunek 4. Spadek gradientowy zależy od gradientów ujemnych.

Aby określić następny punkt na krzywej funkcji straty, algorytm spadku gradientu dodaje do punktu początkowego pewien odsetek wielkości gradientu, tak jak na tym ilustracji:

Rysunek 5. Gradient przenosi nas do następnego punktu na krzywej straty.

Następnie proces zejścia z gradientem powtarza się, coraz bardziej zbliżając się do minimum.

Centrum pomocy

Wstecz

Iteracyjne podejście

Dalej

Współczynnik uczenia się