Regresi linear: Kerugian

Loss adalah metrik numerik yang menjelaskan seberapa salah prediksi model. Kerugian mengukur jarak antara prediksi model dan label aktual. Tujuan melatih model adalah untuk meminimalkan kerugian, dengan menurunkannya ke nilai serendah mungkin.

Pada gambar berikut, Anda dapat memvisualisasikan kerugian sebagai panah yang ditarik dari titik data ke model. Panah menunjukkan seberapa jauh prediksi model dari nilai sebenarnya.

Gambar 9. Garis kerugian menghubungkan titik data ke model.

Gambar 9. Loss diukur dari nilai aktual ke nilai prediksi.

Jarak kehilangan

Dalam statistik dan machine learning, kerugian mengukur perbedaan antara nilai yang diprediksi dan nilai aktual. Loss berfokus pada jarak antara nilai, bukan arah. Misalnya, jika model memprediksi 2, tetapi nilai sebenarnya adalah 5, kita tidak peduli bahwa kerugiannya negatif ($ 2-5=-3 $). Sebaliknya, kita peduli bahwa jarak antara nilai adalah $ 3 $. Jadi, semua metode untuk menghitung kerugian menghilangkan tanda.

Dua metode paling umum untuk menghapus tanda tersebut adalah sebagai berikut:

  • Ambil nilai absolut dari perbedaan antara nilai aktual dan prediksi.
  • Kuadratkan perbedaan antara nilai aktual dan prediksi.

Jenis kehilangan

Dalam regresi linear, ada empat jenis kerugian utama, yang diuraikan dalam tabel berikut.

Jenis kehilangan Definisi Persamaan
Kerugian L1 Jumlah nilai absolut perbedaan antara nilai prediksi dan nilai aktual. $ ∑ | nilai\ sebenarnya - nilai\ yang\ diprediksi | $
Rata-rata error absolut (MAE) Rata-rata kerugian L1 di seluruh kumpulan *N* contoh. $ \frac{1}{N} ∑ | nilai\ sebenarnya - nilai\ prediksi | $
L2 loss Jumlah perbedaan kuadrat antara nilai prediksi dan nilai aktual. $ ∑(nilai\ aktual - nilai\ prediksi)^2 $
Rataan kuadrat galat (MSE) Rata-rata kerugian L2 di seluruh set *N* contoh. $ \frac{1}{N} ∑ (nilai\ sebenarnya - nilai\ prediksi)^2 $

Perbedaan fungsional antara loss L1 dan loss L2 (atau antara MAE dan MSE) adalah penguadratan. Jika perbedaan antara prediksi dan label besar, penguadratan akan membuat kerugian menjadi lebih besar. Jika perbedaannya kecil (kurang dari 1), penguadratan akan membuat kerugian menjadi lebih kecil.

Saat memproses beberapa contoh sekaligus, sebaiknya hitung rata-rata kerugian di semua contoh, baik menggunakan MAE maupun MSE.

Contoh penghitungan kerugian

Dengan menggunakan garis kecocokan terbaik sebelumnya, kita akan menghitung kerugian L2 untuk satu contoh. Dari garis kecocokan terbaik, kita memiliki nilai berat dan bias berikut:

  • $ \small{Weight: -4.6} $
  • $ \small{Bias: 34} $

Jika model memprediksi bahwa mobil seberat 2.370 pound mendapatkan 23,1 mil per galon, tetapi sebenarnya mendapatkan 26 mil per galon, kita akan menghitung kerugian L2 sebagai berikut:

Nilai Persamaan Hasil
Prediksi

$\small{bias + (bobot * nilai\ fitur)}$

$\small{34 + (-4.6*2.37)}$

$\small{23.1}$
Nilai sebenarnya $ \small{ label } $ $ \small{ 26 } $
Kerugian L2

$ \small{ (nilai\ sebenarnya - nilai\ prediksi)^2 } $

$\small{ (26 - 23.1)^2 }$

$\small{8.41}$

Dalam contoh ini, kerugian L2 untuk satu titik data tersebut adalah 8,41.

Memilih kerugian

Keputusan untuk menggunakan MAE atau MSE dapat bergantung pada set data dan cara Anda ingin menangani prediksi tertentu. Sebagian besar nilai fitur dalam set data biasanya berada dalam rentang yang berbeda. Misalnya, mobil biasanya memiliki berat antara 2.000 dan 5.000 pon serta mendapatkan 8 hingga 50 mil per galon. Mobil seberat 3.600 kg, atau mobil yang menempuh 100 mil per galon, berada di luar rentang umum dan akan dianggap sebagai pencilan.

Pencilan juga dapat merujuk pada seberapa jauh prediksi model dari nilai nyata. Misalnya, 3.000 pon berada dalam rentang berat mobil standar, dan 40 mil per galon berada dalam rentang efisiensi bahan bakar standar. Namun, mobil seberat 3.000 pound yang memiliki efisiensi bahan bakar 40 mil per galon akan menjadi pencilan dalam hal prediksi model karena model akan memprediksi bahwa mobil seberat 3.000 pound akan memiliki efisiensi bahan bakar sekitar 20 mil per galon.

Saat memilih fungsi kerugian terbaik, pertimbangkan cara yang Anda inginkan untuk model dalam menangani pencilan. Misalnya, MSE menggerakkan model lebih ke arah pencilan, sedangkan MAE tidak. Kerugian L2 menimbulkan penalti yang jauh lebih tinggi untuk pencilan daripada kerugian L1. Misalnya, gambar berikut menunjukkan model yang dilatih menggunakan MAE dan model yang dilatih menggunakan MSE. Garis merah mewakili model terlatih sepenuhnya yang akan digunakan untuk membuat prediksi. Pencilan lebih dekat dengan model yang dilatih dengan MSE daripada model yang dilatih dengan MAE.

Gambar 10. Model lebih cenderung ke nilai ekstrem.

Gambar 10. Model yang dilatih dengan MSE akan mendekatkan model ke pencilan.

Gambar 11. Model dimiringkan lebih jauh dari pencilan.

Gambar 11. Model yang dilatih dengan MAE lebih jauh dari pencilan.

Perhatikan hubungan antara model dan data:

  • MSE. Model lebih dekat dengan pencilan, tetapi lebih jauh dari sebagian besar titik data lainnya.

  • MAE. Model ini lebih jauh dari pencilan, tetapi lebih dekat dengan sebagian besar titik data lainnya.

Periksa Pemahaman Anda

Pertimbangkan dua plot berikut:

Plot berisi 10 titik.
      Garis melewati 6 titik. 2 titik berjarak 1 unit
      di atas garis; 2 titik lainnya berjarak 1 unit di bawah garis. Plot berisi 10 titik. Garis melewati
      8 titik. 1 titik berjarak 2 unit
      di atas garis; 1 titik lainnya berjarak 2 unit di bawah garis.
Manakah dari dua set data yang ditampilkan dalam plot sebelumnya yang memiliki Rataan Kuadrat Galat (RKG) lebih tinggi?
Kumpulan data di sebelah kiri.
Enam contoh pada garis tersebut mengalami total kerugian 0. Keempat contoh yang tidak berada pada garis terletak tidak terlalu jauh dari garis, sehingga meski mengkuadratkan offset mereka akan tetap menghasilkan nilai yang rendah: $RKG = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0,4$
Kumpulan data di sebelah kanan.
Delapan contoh pada garis tersebut mengalami total kerugian 0. Namun, meskipun hanya dua poin yang berada di luar garis, kedua titik tersebut dua kali lebih jauh dari garis karena titik pencilan di figur kiri. Kerugian kuadrat memperbesar perbedaan tersebut, sehingga offset dua menimbulkan kerugian empat kali lebih besar daripada offset satu: $RKG = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0,8$