Pelajari opsi di bawah ini.
Bayangkan model linear dengan dua fitur yang berkorelasi kuat; yaitu,
kedua fitur ini hampir mirip satu sama lain tetapi satu sama lain
berisi sejumlah kecil {i>random noise<i}. Jika kita melatih model ini
model dengan regularisasi L2, apa yang akan terjadi pada bobot
untuk kedua fitur ini?
Kedua fitur akan memiliki bobot sedang yang kurang lebih sama.
Regularisasi L2 akan memaksa fitur tersebut
bobot yang kira-kira setara,
yaitu sekitar setengah dari
yang seharusnya hanya memiliki
satu dari dua fitur
berada dalam model.
Satu fitur akan memiliki bobot yang besar; yang lain akan memiliki
yang hampir 0,0.
Regularisasi L2 lebih menghukum bobot yang besar
daripada bobot yang kecil. Jadi, bahkan jika satu berat mulai turun
lebih cepat daripada yang lain, regularisasi L2 akan
cenderung memaksa bobot yang lebih besar
untuk turun lebih cepat daripada
bobot yang lebih kecil.
Satu fitur akan memiliki bobot yang besar; yang lain akan memiliki
bobot persis 0,0.
Regularisasi L2 jarang memaksa
bobot menjadi tepat 0,0. Sebaliknya, regularisasi L1
(dibahas nanti) memaksa bobot menjadi persis 0,0.