Mengurangi Kerugian: Kecepatan Pembelajaran

Sebagaimana telah diketahui, vektor gradien memiliki arah dan magnitudo. Algoritme penurunan gradien mengalikan gradien berdasarkan skalar yang dikenal sebagai kecepatan pembelajaran (juga terkadang disebut ukuran langkah) untuk menentukan titik berikutnya. Misalnya, jika magnitudo gradien bernilai 2,5 dan kecepatan pembelajaran bernilai 0,01, algoritme penurunan gradien akan memilih titik 0,025 berikutnya dari titik sebelumnya.

Hyperparameter adalah tombol yang diprogram oleh programmer dalam algoritme machine learning. Sebagian besar programmer machine learning menghabiskan cukup banyak waktu untuk menyesuaikan kecepatan pembelajaran. Jika Anda memilih kecepatan pembelajaran yang terlalu kecil, pembelajaran akan memakan waktu terlalu lama:

Kurva berbentuk U yang sama. Banyak titik yang sangat berdekatan satu sama lain dan jejak mereka membuat kemajuan yang sangat lambat menuju bagian bawah kurva U.

Gambar 6. Kecepatan pembelajaran terlalu kecil.

Sebaliknya, jika Anda menentukan kecepatan pembelajaran yang terlalu besar, titik berikutnya akan terus-menerus memantul secara acak di titik terbawah seperti eksperimen mekanika kuantum yang berjalan dengan tidak semestinya:

Kurva berbentuk U yang sama. Kurva ini berisi titik yang sangat sedikit. Jejak titik bergerak bebas di bagian bawah kurva U lalu bergerak kembali lagi.

Gambar 7. Kecepatan pembelajaran terlalu besar.

Ada kecepatan pembelajaran Goldilocks untuk setiap masalah regresi. Nilai Goldilocks terkait dengan seberapa datar fungsi kerugian. Jika mengetahui gradien fungsi kerugian bernilai kecil, Anda dapat dengan aman mencoba kecepatan pembelajaran yang lebih besar, yang akan mengimbangi gradien bernilai kecil tersebut dan menghasilkan ukuran langkah yang lebih besar.

Kurva berbentuk U yang sama. Jejak poin mencapai ke titik minimum dalam delapan langkah.

Gambar 8. Kecepatan pembelajaran pas.