Persilangan Fitur: Memahami Masalah Non-Linear

Dalam Gambar 1 dan 2, gambarkan hal berikut:

  • Titik biru menandakan pohon yang sakit.
  • Titik oranye menandakan pohon yang sehat.

Titik biru menempati kuadran timur laut; titik oranye menempati kuadran barat daya.

Gambar 1. Apakah ini masalah linear?

Bisakah Anda menggambar garis rapi yang memisahkan pohon yang sakit dari pohon yang sehat? Oke. Ini adalah masalah linear. Garis tidak dapat sempurna. Satu atau dua pohon yang sakit mungkin berada di sisi "sehat", namun garis Anda akan menjadi prediktor yang bagus.

Sekarang lihat gambar berikut:

Titik biru menempati kuadran timur laut dan barat daya; titik oranye menempati kuadran barat laut dan tenggara.

Gambar 2. Apakah ini masalah linear?

Bisakah Anda menggambar garis lurus rapi yang memisahkan pohon yang sakit dari pohon yang sehat? Tidak, Anda tidak dapat melakukannya. Ini adalah masalah tidak non-linear. Garis apa pun yang Anda buat akan menjadi prediktor yang buruk untuk kesehatan pohon.

Gambar yang sama seperti Gambar 2, kecuali garis horizontal memecah bidang. Titik biru dan oranye berada di atas garis; titik biru dan oranye berada di bawah garis.

Gambar 3. Satu garis tidak dapat memisahkan dua kelas.

 

Untuk mengatasi masalah non-linear yang ditunjukkan pada Gambar 2, buatlah persilangan fitur. Persilangan fitur adalah fitur sintesis yang mengenkode non-linear dalam ruang fitur dengan mengalikan dua fitur masukan atau lebih secara bersamaan. (Istilah silang berasal dari produk silang.) Mari kita buat persilangan fitur yang bernama \(x_3\) dengan menyilangkan \(x_1\) dan \(x_2\):

$$x_3 = x_1x_2$$

Kita memperlakukan persilangan fitur \(x_3\) yang terbentuk seperti fitur lainnya. Formula linear menjadi:

$$y = b + w_1x_1 + w_2x_2 + w_3x_3$$

Algoritme linear dapat mempelajari bobot untuk \(w_3\) seperti halnya untuk \(w_1\) dan \(w_2\). Dengan kata lain, meskipun \(w_3\) mengenkode informasi tidak linear, Anda tidak perlu mengubah cara model linear melatih untuk menentukan nilai dari \(w_3\).

Jenis persilangan fitur

Kita dapat membuat banyak jenis persilangan fitur. Misalnya:

  • [A X B]: persilangan fitur yang dibuat dengan mengalikan nilai dari dua fitur.
  • [A x B x C x D x E]: persilangan fitur yang dibuat dengan mengalikan nilai dari lima fitur.
  • [A x A]: persilangan fitur yang dibuat dengan menyelaraskan satu fitur.

Karena penurunan gradien stokastik, model linear dapat dilatih secara efisien. Akibatnya, melengkapi model linear berskala dengan persilangan fitur secara tradisional menjadi cara efisien untuk melatih kumpulan data yang berskala besar.