Jaringan Neural: Pelatihan menggunakan propagasi mundur

Propagasi mundur adalah algoritma pelatihan paling umum untuk jaringan neural. Hal ini membuat penurunan gradien dapat dilakukan untuk jaringan neural multi-layer. Banyak library kode machine learning (seperti Keras) menangani backpropagation secara otomatis, sehingga Anda tidak perlu melakukan perhitungan yang mendasarinya sendiri. Tonton video berikut untuk mendapatkan ringkasan konseptual tentang cara kerja backpropagation:

Praktik terbaik untuk pelatihan jaringan neural

Bagian ini menjelaskan kasus kegagalan backpropagation dan cara paling umum untuk meregularisasi jaringan saraf.

Gradien yang Menghilang

Gradien untuk lapisan jaringan saraf yang lebih rendah (yang lebih dekat dengan lapisan input) dapat menjadi sangat kecil. Dalam jaringan dalam (jaringan dengan lebih dari satu lapisan tersembunyi), penghitungan gradien ini dapat melibatkan perkalian banyak variabel dengan nilai kecil.

Jika nilai gradien mendekati 0 untuk lapisan bawah, gradien dikatakan "menghilang". Lapisan dengan gradien yang menghilang dilatih dengan sangat lambat, atau tidak dilatih sama sekali.

Fungsi aktivasi ReLU dapat membantu mencegah gradien yang hilang.

Gradien Meledak

Jika bobot di jaringan sangat besar, gradien untuk lapisan yang lebih rendah melibatkan perkalian banyak variabel dengan nilai besar. Dalam hal ini, Anda dapat mengalami gradien yang meledak: gradien yang menjadi terlalu besar untuk melakukan konvergensi.

Normalisasi batch dapat membantu mencegah gradien yang meledak, seperti halnya menurunkan tingkat pembelajaran.

Unit ReLU Mati

Setelah jumlah berbobot untuk unit ReLU berada di bawah 0, unit ReLU dapat macet. Fungsi ini menghasilkan 0, tidak berkontribusi apa pun pada output jaringan, dan gradien tidak dapat lagi mengalir melalui fungsi ini selama backpropagation. Dengan sumber gradien yang terputus, input ke ReLU mungkin tidak akan pernah berubah cukup untuk mengembalikan jumlah berbobot di atas 0.

Menurunkan laju pembelajaran dapat membantu mencegah unit ReLU mati.

Regularisasi Dropout

Bentuk regularisasi lainnya, yang disebut regularisasi dropout, berguna untuk jaringan saraf. Metode ini bekerja dengan "menghilangkan" aktivasi unit secara acak dalam jaringan untuk satu langkah gradien. Makin sering Anda keluar, makin kuat regularisasi:

  • 0,0 = Tidak ada regularisasi dengan pelolosan.
  • 1.0 = Keluar dari semua node. Model tidak mempelajari apa pun.
  • Nilai antara 0,0 dan 1,0 = Lebih berguna.