Bu modülde doğrusal regresyon kavramları tanıtılmaktadır.
Doğrusal regresyon, değişkenler arasındaki ilişkiyi bulmak için kullanılan bir istatistiksel tekniktir. Doğrusal regresyon, makine öğrenimi bağlamında özellikler ile etiket arasındaki ilişkiyi bulur.
Örneğin, bir arabanın ağırlığına göre galon başına mil cinsinden yakıt verimliliğini tahmin etmek istediğimizi ve aşağıdaki veri kümesine sahip olduğumuzu varsayalım:
| Binlerce sterlin (özellik) | Mil/galon (etiket) |
|---|---|
| 3,5 | 18 |
| 3,69 | 15 |
| 3,44 | 18 |
| 3,43 | 16 |
| 4,34 | 15 |
| 4,42 | 14 |
| 2,37 | 24 |
Bu noktaları grafiğe döktüğümüzde aşağıdaki grafiği elde ederiz:
Şekil 1. Aracın ağırlığı (pound cinsinden) ve galon başına mil oranı. Bir araba ağırlaştıkça galon başına mil derecesi genellikle düşer.
Noktalardan en iyi uyum çizgisini geçirerek kendi modelimizi oluşturabiliriz:
Şekil 2. Önceki şekildeki verilerden geçen en uygun çizgi.
Doğrusal regresyon denklemi
Cebirsel olarak model, $ y = mx + b $ şeklinde tanımlanır. Burada:
- $ y $, galon başına mil cinsinden değerdir. Tahmin etmek istediğimiz değer budur.
- $ m $, doğrunun eğimidir.
- $ x $ bizim giriş değerimiz olan sterlin cinsindendir.
- $ b $ y eksenini kestiği noktadır.
Makine öğreniminde, doğrusal regresyon modelinin denklemini aşağıdaki gibi yazarız:
Bu örnekte:
- $ y' $ tahmin edilen etikettir (çıktı).
- $ b $, modelin önyargısıdır. Önyargı, bir doğrunun cebirsel denklemindeki y eksenini kestiği nokta ile aynı kavramdır. Makine öğreniminde, önyargı bazen $ w_0 $ olarak adlandırılır. Önyargı, modelin bir parametresidir ve eğitim sırasında hesaplanır.
- $ w_1 $, özelliğin ağırlığıdır. Ağırlık, bir doğrunun cebirsel denklemindeki eğim $ m $ ile aynı kavramdır. Ağırlık, modelin bir parametresidir ve eğitim sırasında hesaplanır.
- $ x_1 $ bir özelliktir (giriş).
Eğitim sırasında model, en iyi modeli üreten ağırlığı ve önyargıyı hesaplar.
Şekil 3. Doğrusal modelin matematiksel gösterimi.
Örneğimizde, çizdiğimiz çizgiden ağırlığı ve önyargıyı hesaplıyoruz. Eğilim 34 (doğrunun y eksenini kestiği nokta), ağırlık ise -4,6'dır (doğrunun eğimi). Model $ y' = 34 + (-4.6)(x_1) $ olarak tanımlanır ve tahmin yapmak için kullanılabilir. Örneğin, bu modeli kullanarak 1.800 kg ağırlığındaki bir arabanın yakıt verimliliğinin 15,6 mil/galon olacağı tahmin edilebilir.
Şekil 4. Modele göre, 1.800 kg ağırlığındaki bir arabanın yakıt verimliliğinin 15,6 mil/galon olması bekleniyor.
Birden fazla özelliği olan modeller
Bu bölümdeki örnekte yalnızca bir özellik (arabanın ağırlığı) kullanılsa da daha karmaşık bir model, her biri ayrı bir ağırlığa ($ w_1 $, $ w_2 $ vb.) sahip birden fazla özelliğe dayanabilir. Örneğin, beş özelliğe dayanan bir model aşağıdaki gibi yazılır:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
Örneğin, yakıt verimliliğini tahmin eden bir model, aşağıdaki gibi özellikleri de kullanabilir:
- Motor hacmi
- İvme
- Silindir sayısı
- Beygir gücü
Bu model aşağıdaki gibi yazılır:
Şekil 5. Bir otomobilin galon başına mil derecesini tahmin etmek için beş özelliğe sahip bir model.
Bu ek özelliklerden birkaçını grafiğe döktüğümüzde, bunların da etiketle doğrusal bir ilişkisi olduğunu görebiliriz (galon başına mil):
Şekil 6. Bir arabanın santimetreküp cinsinden motor hacmi ve galon başına mil cinsinden yakıt tüketimi. Bir arabanın motoru büyüdükçe galon başına mil değeri genellikle düşer.
Şekil 7 Bir arabanın hızlanması ve galon başına mil derecesi. Bir arabanın hızlanması daha uzun sürdüğünde, galon başına mil oranı genellikle artar.