Halaman ini diterjemahkan oleh Cloud Translation API.

Regularisasi untuk Ketersebaran: Regularisasi L1

Vektor renggang sering kali berisi banyak dimensi. Membuat persilangan fitur menghasilkan lebih banyak dimensi. Dengan adanya vektor fitur berdimensi tinggi tersebut, ukuran model dapat menjadi sangat besar dan memerlukan RAM dalam jumlah besar.

Dalam vektor renggang berdimensi tinggi, sebaiknya bobot didorong agar turun tepat ke 0 jika memungkinkan. Bobot yang tepat 0 pada dasarnya menghapus fitur yang bersangkutan dari model. Mengosongkan fitur akan menghemat RAM dan dapat mengurangi derau dalam model.

Misalnya, pertimbangkan kumpulan data perumahan yang tidak hanya mencakup California, tetapi seluruh dunia. Pengelompokan lintang global pada tingkat menit (60 menit per derajat) memberikan sekitar 10.000 dimensi dalam encoding renggang; bujur global pada tingkat menit memberikan sekitar 20.000 dimensi. Persilangan fitur dari kedua fitur ini akan menghasilkan sekitar 200.000.000 dimensi. Banyak dari 200.000.000 dimensi tersebut mewakili area dengan tempat tinggal yang terbatas (misalnya, tengah laut) sehingga akan sulit menggunakan data tersebut untuk melakukan generalisasi secara efektif. Konyol jika harus membayar biaya RAM untuk menyimpan dimensi yang tidak dibutuhkan ini. Oleh karena itu, sebaiknya dorong bobot untuk dimensi yang tidak bermakna turun menjadi benar-benar 0, yang memungkinkan kita menghindari pembayaran biaya penyimpanan koefisien model ini pada waktu inferensi.

Kita mungkin dapat mengenkode ide ini ke dalam masalah pengoptimalan yang dilakukan pada waktu pelatihan, dengan menambahkan istilah regularisasi yang dipilih dengan tepat.

Apakah regularisasi L₂ menyelesaikan tugas ini? Sayangnya tidak. Regularisasi L₂ mendorong bobot menjadi kecil, tetapi tidak memaksanya menjadi persis 0,0.

Ide alternatifnya adalah mencoba dan membuat istilah regularisasi yang mengganjar jumlah nilai koefisien bukan nol dalam model. Peningkatan jumlah ini hanya dapat dibenarkan jika ada cukup peningkatan kemampuan model untuk menyesuaikan dengan data. Sayangnya, meskipun pendekatan berbasis jumlah ini menarik secara intuitif, pendekatan tersebut akan mengubah masalah pengoptimalan konveks menjadi masalah pengoptimalan non-konveks. Jadi, ide yang dikenal sebagai regularisasi L₀ ini bukanlah sesuatu yang dapat kita gunakan secara efektif dalam praktiknya.

Namun, ada istilah regularisasi yang disebut regularisasi L₁ yang berfungsi sebagai perkiraan terhadap L₀, tetapi memiliki keunggulan karena sifatnya yang cembung dan efisien untuk dihitung. Jadi, kita bisa menggunakan regularisasi L₁ untuk mendorong banyak koefisien yang tidak informatif dalam model kita menjadi persis 0, dan menghemat RAM pada waktu inferensi.

Regularisasi L₁ vs. L₂.

L₂ dan L₁ mengganjar bobot secara berbeda:

L₂ mengganjar bobot².
L₁ mengganjar |bobot|.

Akibatnya, L₂ dan L₁ memiliki turunan yang berbeda:

Turunan L₂ adalah 2 * bobot.
Turunan L₁ adalah k (konstanta, yang nilainya tidak bergantung pada bobot).

Anda bisa menganggap turunan L₂ sebagai kekuatan yang menghapus x% bobot setiap waktu. Seperti yang diketahui Zeno, meskipun Anda menghapus x persen dari jumlah miliaran kali, jumlah yang berkurang tidak akan pernah mencapai nol. (Zeno kurang familier dengan batasan presisi floating point, yang mungkin dapat menghasilkan nilai yang benar-benar nol.) Bagaimanapun, L₂ biasanya tidak mendorong bobot ke nol.

Anda bisa menganggap turunan L₁ sebagai gaya yang mengurangi beberapa konstanta dari bobot setiap waktu. Namun, berkat nilai absolut, L₁ memiliki diskontinuitas pada 0, yang menyebabkan pengurangan hasil yang melewati 0 untuk menjadi nol. Misalnya, jika pengurangan memaksa bobot dari +0,1 menjadi -0,2, L₁ akan menetapkan bobotnya menjadi persis 0. Eureka, L₁ membuat bobot menjadi nol.

Regularisasi L₁—menghukum nilai absolut semua bobot—ternyata cukup efisien untuk model luas.

Perhatikan bahwa deskripsi ini berlaku untuk model satu dimensi.

Klik tombol Play () di bawah untuk membandingkan efek yang dimiliki regularisasi L₁ dan L₂ pada jaringan bobot.

Pusat Bantuan

pengoptimalan konveks	Regularisasi L₁
Regularisasi L₂	enkode one-hot
bobot

Regularisasi untuk Ketersebaran: Regularisasi L1

Regularisasi L1 vs. L2.

Regularisasi L₁ vs. L₂.