Regresi Logistik: Menghitung Probabilitas

Banyak masalah memerlukan estimasi probabilitas sebagai output. Regresi logistik adalah mekanisme yang sangat efisien untuk menghitung probabilitas. Secara praktis, Anda dapat menggunakan probabilitas yang ditampilkan dengan salah satu dari dua cara berikut:

  • "Apa adanya"
  • Dikonversi ke kategori biner.

Mari kita pertimbangkan bagaimana kita dapat menggunakan probabilitas "sebagaimana adanya." Misalnya kita membuat model regresi logistik untuk memprediksi kemungkinan anjing akan menggonggong pada tengah malam. Kita akan menyebut probabilitas tersebut:

\[p(bark | night)\]

Jika model regresi logistik memprediksi \(p(bark | night) = 0.05\), maka selama setahun, pemilik anjing tersebut akan kaget saat terbangun kira-kira 18 kali:

\[\begin{align} startled &= p(bark | night) \cdot nights \\ &= 0.05 \cdot 365 \\ &~= 18 \end{align} \]

Dalam banyak kasus, Anda akan memetakan output regresi logistik ke dalam solusi untuk masalah klasifikasi biner, dengan tujuan untuk memprediksi salah satu dari dua label yang mungkin benar (mis., "spam" atau "bukan spam"). Modul selanjutnya akan berfokus pada hal itu.

Anda mungkin ingin tahu bagaimana model regresi logistik dapat memastikan output yang selalu turun antara 0 dan 1. Ketika muncul, fungsi sigmoid, didefinisikan di bawah, menghasilkan output yang memiliki karakteristik yang sama:

$$y = \frac{1}{1 + e^{-z}}$$

Fungsi sigmoid menghasilkan plot berikut:

Fungsi sigmoid. Sumbu x adalah nilai inferensi mentah. Sumbu y diperluas dari 0 hingga +1, eksklusif.

Gambar 1: Fungsi sigmoid.

Jika \(z\) merepresentasikan output lapisan linear model yang dilatih dengan regresi logistik, \(sigmoid(z)\) akan menghasilkan nilai (probabilitas) antara 0 dan 1. Dalam istilah matematika:

$$y' = \frac{1}{1 + e^{-z}}$$

dalam hal ini:

  • \(y'\) adalah output model regresi logistik untuk contoh tertentu.
  • \(z = b + w_1x_1 + w_2x_2 + \ldots + w_Nx_N\)
    • Nilai \(w\) adalah bobot model yang dipelajari, dan \(b\) bias.
    • Nilai \(x\) adalah nilai fitur untuk contoh tertentu.

Perhatikan bahwa \(z\) juga disebut sebagai log-peluang karena invers dari status sigmoid yang \(z\) dapat ditentukan sebagai log probabilitas label \(1\) (mis., "kutipan anjing") dibagi dengan probabilitas label \(0\)(misalnya, "anjing tidak menggonggong"):

$$ z = \log\left(\frac{y}{1-y}\right) $$

Berikut adalah fungsi sigmoid dengan label ML:

Fungsi Sigmoid dengan sumbu x yang diberi label sebagai jumlah dari semua bobot dan fitur (ditambah bias); sumbu y diberi label Probabilitas Output.

Gambar 2: Output regresi logistik.