Pelatihan Jaringan Neural

Propagasi mundur adalah algoritma pelatihan yang paling umum untuk jaringan neural. Hal ini membuat penurunan gradien sesuai untuk jaringan neural multi-lapisan. TensorFlow menangani propagasi mundur secara otomatis, sehingga Anda tidak perlu memahami algoritmenya secara mendalam. Untuk memahami cara kerjanya, baca: Penjelasan visual algoritme propagasi mundur. Saat Anda men-scroll penjelasan sebelumnya, perhatikan hal-hal berikut:

  • Cara data mengalir melalui grafik.
  • Cara pemrograman dinamis memungkinkan kita menghindari komputasi secara eksponensial banyak jalur yang dilalui grafik. Di sini, "pemrograman dinamis" berarti mencatat hasil menengah terkait operan maju dan mundur.

Pelatihan Jaringan Neural

  • Gradien itu penting
    • Jika dapat dibedakan, kita bisa mempelajarinya
  • Gradien itu penting
    • Jika dapat dibedakan, kita bisa mempelajarinya
  • Gradien dapat hilang
    • Setiap lapisan tambahan dapat mengurangi sinyal vs. derau secara berturut-turut
    • ULT berguna di sini
  • Gradien itu penting
    • Jika dapat dibedakan, kita bisa mempelajarinya
  • Gradien dapat hilang
    • Setiap lapisan tambahan dapat mengurangi sinyal vs. derau secara berturut-turut
    • ULT berguna di sini
  • Gradien bisa meledak
    • Kecepatan pembelajaran sangat penting di sini
    • Normalisasi batch (tombol yang berguna) dapat membantu
  • Gradien itu penting
    • Jika dapat dibedakan, kita bisa mempelajarinya
  • Gradien dapat hilang
    • Setiap lapisan tambahan dapat mengurangi sinyal vs. derau secara berturut-turut
    • ULT berguna di sini
  • Gradien bisa meledak
    • Kecepatan pembelajaran sangat penting di sini
    • Normalisasi batch (tombol yang berguna) dapat membantu
  • Lapisan ULT bisa mati
    • Tetap tenang dan turunkan kecepatan pembelajaran Anda
  • Kita ingin fitur kita memiliki skala yang wajar
    • Sekitar nol, rentang [-1, 1] sering bekerja dengan baik
    • Membantu konvergensi penurunan gradien; menghindari perangkap NaN
    • Menghindari nilai pencilan juga dapat membantu
  • Dapat menggunakan beberapa metode standar:
    • Skala linier
    • Hard cap (pemotongan) ke maks, min
    • Penskalaan log
  • Dropout: Bentuk lain dari regularisasi, berguna untuk NN
  • Bekerja dengan "meloloskan" unit secara acak di jaringan untuk satu langkah gradien
    • Terdapat koneksi untuk membuat model ensemble di sini
  • Semakin sering Anda keluar, semakin kuat regularisasi tersebut
    • 0,0 = tidak ada regularisasi dengan pelolosan
    • 1,0 = hapus semuanya! tidak mempelajari apa pun
    • Nilai menengah lebih berguna