Bu modülde doğrusal regresyon kavramları tanıtılmaktadır.
Doğrusal regresyon, değişkenler arasındaki ilişkiyi bulmak için kullanılan bir istatistiksel tekniktir. ML bağlamında doğrusal regresyon, özellikler ile etiket arasındaki ilişkiyi bulur.
Örneğin, bir aracın ağırlığına göre yakıt verimliliğini (mil/galon) tahmin etmek istediğimizi ve aşağıdaki veri kümesini kullandığımızı varsayalım:
1.000'ler cinsinden pound (özellik) | Mil/galon (etiket) |
---|---|
3,5 | 18 |
3,69 | 15 |
3,44 | 18 |
3,43 | 16 |
4,34 | 15 |
4.42 | 14 |
2,37 | 24 |
Bu noktaları grafiğe yerleştirirsek aşağıdaki grafiği elde ederiz:
Şekil 1. Araç ağırlığı (pound cinsinden) ve galon başına mil derecelendirmesi. Araç ağırlaştıkça genelde galon başına mil değeri düşer.
Noktaların üzerinden en iyi uyum çizgisini çizerek kendi modelimizi oluşturabiliriz:
Şekil 2. Önceki şekildeki veriler üzerinden çizilen en uygun çizgi.
Doğrusal regresyon denklemi
Cebirsel terimlerle model, $ y = mx + b $ olarak tanımlanır.
- $ y $, tahmin etmek istediğimiz değer olan galon başına mildir.
- $ m $, doğrunun eğimidir.
- $ x $, giriş değerimiz olan pound'dur.
- $ b $, y kesme noktasıdır.
ML'de doğrusal regresyon modelinin denklemini aşağıdaki gibi yazarız:
Bu örnekte:
- $ y' $, tahmin edilen etikettir (çıktı).
- $ b $, modelin önyargısıdır. Eğilim, bir çizginin cebirsel denklemindeki y kesme noktasıyla aynı kavramdır. Yapay zeka alanında önyargı bazen $ w_0 $ olarak adlandırılır. Önyargı, modelin bir parametresidir ve eğitim sırasında hesaplanır.
- $ w_1 $, özelliğin ağırlığı'dır. Ağırlık, bir çizginin cebirsel denklemindeki eğim ($ m $) ile aynı kavramdır. Ağırlık, modelin bir parametresidir ve eğitim sırasında hesaplanır.
- $ x_1 $, giriş olan bir özelliktir.
Eğitim sırasında model, en iyi modeli oluşturan ağırlığı ve önyargıyı hesaplar.
Şekil 3. Doğrusal bir modelin matematiksel gösterimi.
Örneğimizde, çizdiğimiz çizgiden ağırlığı ve yönü hesaplayacağız. Eğilim 34'tür (çizginin y ekseniyle kesiştiği yer) ve ağırlık -4,6'dır (çizginin eğimi). Model, $ y' = 34 + (-4,6)(x_1) $ olarak tanımlanır ve tahmin yapmak için kullanılabilir. Örneğin, bu model kullanılarak 1.800 kg ağırlığında bir aracın tahmini yakıt verimliliği 15,6 mil/galon olur.
Şekil 4. Model kullanılarak 1.800 kg ağırlığında bir aracın tahmini yakıt verimliliği 15,6 mil/galon olarak hesaplanır.
Birden fazla özelliği olan modeller
Bu bölümdeki örnekte yalnızca bir özellik (arabanın ağırlığı) kullanılsa da daha karmaşık bir model, her biri ayrı bir ağırlığa ($ w_1 $, $ w_2 $ vb.) sahip birden fazla özelliğe dayalı olabilir. Örneğin, beş özelliğe dayanan bir model aşağıdaki gibi yazılır:
$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $
Örneğin, yakıt tüketimini tahmin eden bir model ek olarak aşağıdaki gibi özellikler kullanabilir:
- Motor hacmi
- Hızlandırma
- Silindir sayısı
- Beygir gücü
Bu model aşağıdaki gibi yazılır:
Şekil 5. Bir aracın litre başına kilometre puanını tahmin etmek için beş özelliğe sahip bir model.
Bu ek özelliklerin bazılarını grafik hâline getirdiğimizde, bunların da "litre başına kilometre" etiketiyle doğrusal bir ilişkiye sahip olduğunu görebiliriz:
Şekil 6. Bir aracın motor hacmi (santimetre küp cinsinden) ve galon başına mil değeri. Bir aracın motoru büyüdükçe yakıt tüketimi genellikle azalır.
Şekil 7. Bir aracın hızlanma ve yakıt tüketimi değerleri. Bir aracın hızlanması ne kadar uzun sürerse yakıt tüketimi de genellikle o kadar artar.
Şekil 8. Bir aracın beygir gücü ve galon başına mil değeri. Bir aracın beygir gücü arttıkça genelde galon başına mil oranı düşer.