Regresi Logistik: Menghitung Probabilitas

Banyak masalah memerlukan estimasi probabilitas sebagai keluaran. Regresi logistik adalah mekanisme yang sangat efisien untuk menghitung probabilitas. Secara praktis, Anda dapat menggunakan probabilitas yang ditampilkan dengan dua cara berikut:

  • "Apa adanya"
  • Dikonversi ke kategori biner.

Mari kita pertimbangkan bagaimana kita dapat menggunakan probalilitas "apa adanya". Anggap kita membuat model regresi logistik untuk memprediksi probabilitas anjing akan menggonggong pada tengah malam. Kita akan menyebutnya probabilitas:

  p(bark | night)

Jika model regresi logistik memprediksi p(bark | night) 0,05, selama satu tahun pemilik anjing tersebut akan bangun dengan terkejut sebanyak kira-kira 18 kali:

  startled = p(bark | night) * nights
  18 ~= 0.05 * 365

Dalam banyak kasus, Anda akan memetakan keluaran regresi logistik menjadi solusi masalah klasifikasi biner, yang tujuannya adalah untuk memprediksi dengan benar salah satu dari dua label masalah (misalnya, "spam" atau "bukan spam"). Modul selanjutnya akan berfokus pada hal itu.

Anda mungkin ingin tahu cara model regresi logistik dapat memastikan keluaran selalu antara 0 dan 1. Ketika muncul, fungsi sigmoid, didefinisikan di bawah, menghasilkan keluaran yang memiliki karakteristik yang sama:

$$y = \frac{1}{1 + e^{-z}}$$

Fungsi sigmoid menghasilkan plot berikut:

Fungsi sigmoid. Sumbu x adalah nilai inferensi mentah. Sumbu y adalah perpanjangan dari 0 hingga +1, eksklusif.

Gambar 1: Fungsi sigmoid.

Jika z mewakili keluaran lapisan linear model yang dilatih dengan regresi logistik, maka sigmoid(z) akan menghasilkan nilai (probabilitas) antara 0 dan 1. Dalam istilah matematika:

$$y' = \frac{1}{1 + e^{-(z)}}$$

yang mana:

  • y' adalah keluaran model regresi logistik untuk contoh tertentu.
  • z adalah b + w1x1 + w2x2 + ... wNxN
    • Nilai w adalah bobot model yang dipelajari, dan b adalah biasnya.
    • Nilai x adalah nilai fitur untuk contoh tertentu.

Perlu diketahui bahwa z juga disebut sebagai log-peluang karena kebalikan sigmoid menyatakan bahwa z dapat ditentukan sebagai log probabilitas label "1" (misalnya, "anjing menggonggong") yang dibagi dengan probabilitas label "0" (misalnya, "anjing tidak menggonggong"):

$$ z = log(\frac{y}{1-y}) $$

Berikut adalah fungsi sigmoid dengan label ML:

Fungsi sigmoid dengan sumbu x yang diberi label sebagai penjumlahan semua bobot dan fitur (ditambah bias); sumbu y diberi label sebagai Keluaran Probabilitas.

Gambar 2: Keluaran regresi logistik.