Halaman ini diterjemahkan oleh Cloud Translation API.

Mengurangi Kerugian: Penurunan Gradien

Diagram pendekatan berulang (Gambar 1) berisi kotak bergelombang berwarna hijau yang bertuliskan "Menghitung update parameter". Sekarang kita akan mengganti hal algoritma yang ada dengan sesuatu yang lebih substansial.

Misalkan kita memiliki waktu dan resource komputasi untuk menghitung kerugian bagi semua kemungkinan nilai $w_1$. Untuk jenis masalah regresi yang telah kita periksa, plot kerugian vs. $w_1$ yang dihasilkan akan selalu konveks. Dengan kata lain, plot akan selalu berbentuk mangkuk, seperti ini:

Plot kurva berbentuk U, dengan sumbu vertikal diberi label 'kerugian' dan sumbu horizontal diberi label sebagai nilai bobot w i.

Gambar 2. Masalah regresi menghasilkan kerugian konveks vs. plot bobot.

Masalah konveks hanya memiliki satu nilai minimum; yaitu, hanya satu tempat yang kemiringannya persis 0. Nilai minimum tersebut adalah titik bertemunya fungsi kerugian.

Menghitung fungsi kerugian untuk setiap nilai $w_1$yang ada di seluruh set data akan menjadi cara yang tidak efisien untuk menemukan titik konvergensi. Mari kita periksa mekanisme yang lebih baik dan sangat populer dalam machine learning, yang disebut penurunan gradien.

Tahap pertama dalam penurunan gradien adalah memilih nilai awal (titik awal) untuk $w_1$. Titik awal tidak terlalu penting; oleh karena itu, banyak algoritma hanya menetapkan $w_1$ ke 0 atau memilih nilai acak. Gambar berikut menunjukkan bahwa kita telah memilih titik awal yang sedikit lebih besar dari 0:

Plot kurva berbentuk U. Titik yang berada di tengah-tengah sisi kiri kurva diberi label 'Titik Awal'.

Gambar 3. Titik awal untuk penurunan gradien.

Kemudian, algoritme penurunan gradien menghitung gradien kurva kerugian di titik awal. Di Gambar 3, gradien kerugian sama dengan turunan (kemiringan) kurva, dan menunjukkan arah mana yang "lebih hangat" atau "lebih dingin". Jika ada beberapa bobot, gradien adalah vektor turunan parsial yang terkait dengan bobot.

Klik ikon plus untuk mempelajari lebih lanjut turunan dan gradien parsial.

Matematika seputar machine learning sangat menarik dan kami senang Anda mengklik link untuk mempelajari lebih lanjut. Namun, perlu diperhatikan bahwa TensorFlow menangani semua komputasi gradien untuk Anda, sehingga Anda tidak harus memahami kalkulus yang disediakan di sini.

Turunan parsial

Fungsi multivariabel adalah fungsi dengan lebih dari satu argumen, seperti:

$$f(x,y) = e^{2y}\sin(x)$$

Turunan parsial $f$ terkait $x$, dilambangkan sebagai berikut:

$$ \partial f \over \partial x $$

adalah turunan dari $f$ yang dianggap sebagai fungsi dari $x$ saja. Untuk menemukan hal berikut:

$$\partial f \over \partial x $$

Anda harus memiliki $y$ konstanta (jadi $f$ sekarang merupakan fungsi dari satu variabel $x$), dan mengambil turunan reguler dari $f$yang terkait dengan $x$. Misalnya, jika $y$ ditetapkan ke 1, fungsi sebelumnya menjadi:

$$ f(x) = e^2\sin(x) $$

Ini hanyalah fungsi dari satu variabel $x$, yang turunannya adalah:

$$ e^2\cos(x) $$

Secara umum, dengan menganggap $y$ sebagai tetap, turunan parsial $f$ yang terkait dengan $x$ dihitung sebagai berikut:

$$\frac{\partial f}{\partial x}(x,y) = e^{2y}\cos(x)$$

Demikian pula, jika kita memiliki $x$ tetap sebagai gantinya, turunan parsial dari $f$ sehubungan dengan $y$ adalah:

$$ \frac{\partial f}{\partial y}(x,y) = 2e^{2y}\sin(x) $$

Secara intuitif, turunan parsial menunjukkan seberapa besar perubahan fungsi saat Anda sedikit mengganggu satu variabel. Dalam contoh sebelumnya:

$$ \frac{\partial f}{\partial x} (0,1) = e^2 \approx 7.4 $$

Jadi, saat Anda memulai dari $(0,1)$, pertahankan $y$ konstan, dan gerakkan $x$ sedikit, $f$ akan berubah sekitar 7,4 kali dari jumlah yang Anda ubah $x$.

Dalam machine learning, turunan parsial sebagian besar digunakan bersama dengan gradien fungsi.

Gradien

Gradien fungsi, dilambangkan sebagai berikut, adalah vektor turunan parsial yang terkait dengan semua variabel independen:

$$ \nabla f $$

Misalnya, jika:

$$ f(x,y) = e^{2y}\sin(x) $$

lalu:

$$\nabla f(x,y) = \left(\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)\right) = (e^{2y}\cos(x), 2e^{2y}\sin(x))$$

Perhatikan hal berikut:

$$\nabla f$$	Menunjukkan ke arah peningkatan terbesar dari fungsi.
$$ {-\nabla f} $$	Menunjukkan ke arah penurunan terbesar dari fungsi.

Jumlah dimensi dalam vektor sama dengan jumlah variabel dalam formula untuk $f$; dengan kata lain, vektor berada dalam ruang domain fungsi tersebut. Misalnya, grafik dari fungsi berikut $f(x,y)$:

$$ f(x,y) = 4 + (x - 2)^2 + 2y^2 $$

jika dilihat dalam tiga dimensi dengan $z = f(x,y)$ tampak seperti lembah dengan nilai minimum $(2,0,4)$:

Gradien $f(x,y)$ adalah vektor dua dimensi yang memberi tahu Anda ke mana $(x,y)$ arah bergerak untuk peningkatan tinggi maksimum. Dengan demikian, nilai negatif dari gradien menggerakkan Anda ke arah penurunan tinggi maksimum. Dengan kata lain, nilai negatif dari vektor gradien menunjuk ke lembah.

Dalam machine learning, gradien digunakan dalam penurunan gradien. Kita sering memiliki fungsi kerugian dari banyak variabel yang kita coba minimalkan, dan kita mencoba melakukannya dengan mengikuti nilai negatif dari gradien fungsi.

Perhatikan bahwa gradien adalah vektor sehingga memiliki kedua karakteristik berikut:

arah
magnitudo (magnitudo)

Gradien selalu menunjuk ke arah peningkatan paling curam dalam fungsi kerugian. Algoritme penurunan gradien mengambil langkah ke arah gradien negatif untuk mengurangi kerugian secepat mungkin.

Plot kurva berbentuk U. Titik di sisi kiri kurva diberi label 'Titik Awal'. Panah berlabel 'gradien negatif' menunjuk dari titik ini ke kanan.

Gambar 4. Penurunan gradien bergantung pada gradien negatif.

Untuk menentukan titik berikutnya di sepanjang kurva fungsi kerugian, algoritme penurunan gradien menambahkan beberapa fraksi besaran gradien ke titik awal seperti yang ditunjukkan pada gambar berikut:

Plot kurva berbentuk U. Titik di sisi kiri kurva diberi label 'Titik Awal'. Panah berlabel 'gradien negatif' menunjuk dari titik ini ke kanan. Panah lain menunjuk dari ujung panah pertama ke bawah ke titik kedua pada kurva. Titik kedua diberi label 'titik berikutnya'.

Gambar 5. Langkah gradien memindahkan kita ke titik berikutnya di kurva loss.

Penurunan gradien kemudian mengulangi proses ini, bergerak mendekat ke nilai minimum.

Pusat Bantuan

Sebelumnya

Pendekatan Iteratif

Berikutnya

Kecepatan Pembelajaran