Regresi Logistik: Hilang dan Reguler

Fungsi kerugian untuk Regresi Logistik

Fungsi kerugian untuk regresi linear adalah kerugian kuadrat. Fungsi kerugian untuk regresi logistik adalah Kerugian Log, yang didefinisikan sebagai berikut:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

dalam hal ini:

  • \((x,y)\in D\) adalah set data yang berisi banyak contoh berlabel, yang merupakan \((x,y)\) pasangan.
  • \(y\) adalah label dalam contoh berlabel. Karena ini adalah regresi logistik, setiap nilai \(y\) harus 0 atau 1.
  • \(y'\) adalah nilai yang diprediksi (antara 0 dan 1), mengingat kumpulan fitur di \(x\).

Regularisasi dalam Regresi Logistik

Regularisasi sangatlah penting dalam pemodelan regresi logistik. Tanpa rutin, sifat asymptotic regresi logistik akan terus mendorong kehilangan menuju 0 di dimensi tinggi. Akibatnya, sebagian besar model regresi logistik menggunakan salah satu dari dua strategi berikut untuk mengurangi kompleksitas model:

  • regulasi L2.
  • Penghentian awal, yaitu membatasi jumlah langkah pelatihan atau kecepatan pembelajaran.

(Kita akan membahas strategi ketiga—normalisasi L1—dalam modul selanjutnya.)

Bayangkan Anda menetapkan ID unik untuk setiap contoh, dan memetakan setiap ID ke fiturnya sendiri. Jika Anda tidak menentukan fungsi regulerisasi, model akan menjadi overfit sepenuhnya. Itu karena model akan mencoba mendorong kerugian ke nol pada semua contoh dan tidak pernah sampai di sana, mendorong bobot untuk setiap fitur indikator ke +tak terhingga atau -tak terbatas. Hal ini dapat terjadi dalam data dimensi tinggi dengan persilangan fitur, jika ada persilangan massal yang sangat besar yang hanya terjadi pada satu contoh.

Untungnya, menggunakan L2 atau penghentian awal akan mencegah masalah ini.