Kecepatan pembelajaran

Lampiran ini berisi beberapa detail tambahan tentang laju pembelajaran.

Jadwal peluruhan kecepatan pembelajaran

Keluarga jadwal peluruhan laju pembelajaran terbaik adalah masalah terbuka; tidak jelas cara menyusun serangkaian eksperimen yang ketat untuk menjawab pertanyaan ini dengan yakin. Meskipun kami tidak mengetahui jadwal terbaik untuk keluarga, kami yakin akan hal berikut:

  • Penting untuk memiliki jadwal (non-konstan).
  • Menyesuaikan jadwal tersebut penting.

Kecepatan pembelajaran yang berbeda akan berfungsi paling baik pada waktu yang berbeda selama proses pengoptimalan. Memiliki semacam jadwal membuat model lebih mungkin mencapai kecepatan pembelajaran yang baik.

Peluruhan kecepatan pembelajaran default terbaik

Sebaiknya gunakan salah satu keluarga peluruhan laju pembelajaran berikut sebagai default:

  • Peluruhan linear
  • Peluruhan kosinus

Banyak keluarga jadwal lainnya juga mungkin cocok.

Mengapa beberapa makalah memiliki jadwal laju pembelajaran yang rumit?

Banyak makalah akademis menggunakan jadwal peluruhan kecepatan pembelajaran (LR) bertahap yang rumit. Pembaca sering kali bertanya-tanya bagaimana penulis bisa mendapatkan jadwal yang rumit seperti itu. Banyak jadwal peluruhan LR yang rumit adalah hasil penyesuaian jadwal sebagai fungsi performa set validasi secara ad hoc. Definisinya yaitu:

  1. Mulai satu sesi pelatihan dengan peluruhan LR sederhana (atau kecepatan pembelajaran konstan).
  2. Terus jalankan pelatihan hingga performa tampak stagnan. Jika hal ini terjadi, jeda pelatihan. Kemudian, lanjutkan dengan jadwal peluruhan LR yang mungkin lebih curam (atau laju pembelajaran konstan yang lebih kecil) dari titik ini. Ulangi proses ini (hingga batas waktu konferensi atau peluncuran).

Menyalin jadwal yang dihasilkan secara sembarangan umumnya bukan ide yang baik karena jadwal tertentu yang terbaik sensitif terhadap berbagai pilihan hyperparameter lainnya. Sebaiknya salin algoritma yang menghasilkan jadwal, meskipun hal ini jarang dapat dilakukan jika jadwal dihasilkan oleh penilaian manusia yang arbitrer. Jadwal yang sensitif terhadap error validasi jenis ini dapat digunakan jika dapat sepenuhnya otomatis, tetapi jadwal yang melibatkan intervensi manusia yang merupakan fungsi dari error validasi tidak stabil dan tidak mudah direproduksi, jadi sebaiknya hindari jadwal tersebut. Sebelum memublikasikan hasil yang menggunakan jadwal tersebut, coba buat agar dapat direproduksi sepenuhnya.

Bagaimana cara menyesuaikan hyperparameter Adam?

Tidak semua hyperparameter di Adam sama pentingnya. Aturan praktis berikut sesuai dengan "anggaran" yang berbeda untuk jumlah uji coba dalam studi.

  • Jika < 10 uji coba dalam studi, hanya sesuaikan kecepatan pembelajaran (dasar).
  • Jika ada 10-25 uji coba dalam studi, sesuaikan kecepatan pembelajaran dan beta_1.
  • Jika 25+ uji coba, sesuaikan kecepatan pembelajaran, beta_1, dan epsilon.
  • Jika uji coba jauh lebih banyak dari 25, sesuaikan juga beta_2.

Mengingat betapa sulitnya memberikan aturan umum tentang ruang penelusuran dan jumlah titik yang harus Anda ambil sampelnya dari ruang penelusuran, lihat aturan praktis yang dinyatakan di bagian ini sebagai panduan kasar."