Pelatihan Jaringan Neural

Propagasi mundur adalah algoritme pelatihan yang paling umum untuk jaringan neural. Hal ini membuat penurunan gradien sesuai untuk jaringan neural lapisan jamak. TensorFlow menangani propagasi mundur secara otomatis, sehingga Anda tidak perlu memahami algoritmenya secara mendalam. Untuk memahami cara kerjanya, baca: Penjelasan visual algoritme propagasi mundur. Saat membaca penjelasan, perhatikan hal-hal berikut:

  • Cara data mengalir menuju grafik.
  • Cara pemrograman dinamis memungkinkan kita menghindari penghitungan eksponensial banyak jalur menuju grafik. "Pemrograman dinamis" di sini berarti mencatat hasil menengah terkait propagasi maju dan mundur.

Pelatihan Jaringan Neural

  • Gradien itu penting
    • Jika dapat dibedakan, kita bisa mempelajarinya
  • Gradien itu penting
    • Jika dapat dibedakan, kita bisa mempelajarinya
  • Gradien bisa hilang
    • Setiap lapisan tambahan bisa mengurangi sinyal vs. kerusakan secara berturut-turut
    • ULT berguna di sini
  • Gradien itu penting
    • Jika dapat dibedakan, kita bisa mempelajarinya
  • Gradien bisa hilang
    • Setiap lapisan tambahan bisa mengurangi sinyal vs. kerusakan secara berturut-turut
    • ULT berguna di sini
  • Gradien bisa meledak
    • Kecepatan pembelajaran penting di sini
    • Normalisasi tumpukan (opsi yang berguna) bisa membantu
  • Gradien itu penting
    • Jika dapat dibedakan, kita bisa mempelajarinya
  • Gradien bisa hilang
    • Setiap lapisan tambahan bisa mengurangi sinyal vs. kerusakan secara berturut-turut
    • ULT berguna di sini
  • Gradien bisa meledak
    • Kecepatan pembelajaran penting di sini
    • Normalisasi tumpukan (opsi yang berguna) bisa membantu
  • Lapisan ULT bisa mati
    • Jangan panik dan turunkan kecepatan pembelajaran
  • Kita ingin fitur kita memiliki skala yang wajar
    • Sekitar nol, rentang [-1, 1] sering berfungsi baik
    • Membantu konvergensi penurunan gradien; menghindari perangkap NaN
    • Menghindari nilai pencilan juga bisa membantu
  • Bisa menggunakan beberapa metode standar:
    • Skala linear
    • Hard cap (pemotongan) ke maks, min
    • Penskalaan log
  • Pelolosan: Bentuk lain regularisasi, berguna untuk NN
  • Bekerja secara acak "meloloskan" unit di jaringan untuk satu langkah gradien
    • Terdapat koneksi untuk melakukan model ansambel di sini
  • Semakin banyak Anda loloskan, semakin kuat regulasi tersebut
    • 0,0 = tidak ada regularisasi dengan pelolosan
    • 1,0 = loloskan semuanya! tidak mempelajari apa pun
    • Nilai menengah lebih bermanfaat