Gözetimli öğrenmenin görevleri iyi tanımlanmıştır ve spam tespiti ya da yağış tahminini tahmin etme gibi birçok senaryoya uygulanabilir.
Gözetimli temel öğrenim kavramları
Gözetimli makine öğrenimi aşağıdaki temel kavramlara dayanır:
- Veriler
- Model
- Eğitim
- Değerlendiriliyor
- Çıkarım
Veriler
Makine öğreniminin itici gücü verilerdir. Veriler, tablolarda depolanan kelimeler ve sayılar şeklinde veya görüntüler ile ses dosyalarında yakalanan piksel ve dalga biçimi değerleri olarak sunulur. İlgili verileri veri kümelerinde depolarız. Örneğin, aşağıdaki gibi bir veri kümemiz olabilir:
- kedi görselleri
- Konut fiyatları
- Hava durumu
Veri kümeleri, özellikler ve bir etiket içeren bağımsız örneklerden oluşur. Bir örneği, bir elektronik tablodaki tek bir satıra benzetebiliriz. Özellikler, gözetimli bir modelin etiketi tahmin etmek için kullandığı değerlerdir. Etiket, "yanıt", yani modelin tahmin etmesini istediğimiz değerdir. Yağış tahminini tahmin eden bir hava durumu modelinde özellikler enlem, boylam, sıcaklık, nem, bulut kapsamı, rüzgar yönü ve atmosferik basınç olabilir. Bu etiket, yağış miktarı olacaktır.
Hem özellik hem de bir etiketi içeren örneklere etiketli örnekler adı verilir.
İki etiketli örnek
Buna karşılık, etiketlenmemiş örnekler özellik içerir ancak etiket içermez. Bir model oluşturmanızdan sonra, model, etiketi özelliklerden tahmin eder.
Etiketlenmemiş iki örnek
Veri kümesi özellikleri
Veri kümesi, boyutu ve çeşitliliği ile tanımlanır. Boyut, örnek sayısını gösterir. Çeşitlilik bu örneklerin kapsadığı aralığı belirtir. İyi veri kümeleri hem büyük hem de son derece çeşitlidir.
Bazı veri kümeleri hem büyük hem de çeşitlidir. Bununla birlikte, bazı veri kümeleri büyüktür ancak çeşitliliği az, bazıları ise küçük ancak son derece çeşitlidir. Başka bir deyişle, büyük bir veri kümesi yeterli çeşitliliği garanti etmez ve son derece çeşitliliğe sahip bir veri kümesi, yeterli örnek garantisi vermez.
Örneğin, bir veri kümesi yalnızca Temmuz ayına ait olmakla birlikte 100 yıllık veriler içerebilir. Ocak ayında yağış miktarıyla ilgili tahminde bulunmak için bu veri kümesini kullanmak kötü tahminler üretecektir. Buna karşılık, veri kümesi yalnızca birkaç yılı kapsasa da her ayı içerebilir. Bu veri kümesi, değişkenliği hesaba katacak kadar yıl içermediğinden kötü tahminler üretebilir.
Öğrendiklerinizi Sınayın
Bir veri kümesi, özelliklerinin sayısı ile de karakterize edilebilir. Örneğin, bazı hava durumu veri kümeleri, uydu görüntülerinden bulut kapsama değerlerine kadar yüzlerce özellik içerebilir. Başka veri kümeleri ise nem, atmosferik basınç ve sıcaklık gibi yalnızca üç ya da dört özellik içerebilir. Daha fazla özelliğe sahip veri kümeleri, bir modelin ek kalıpları keşfetmesine ve daha iyi tahminler yapmasına yardımcı olabilir. Bununla birlikte, daha fazla özelliğe sahip veri kümeleri her zaman daha iyi tahminler yapan modeller üretmez. Çünkü bazı özelliklerin etiketle herhangi bir nedensel ilişkisi olmayabilir.
Model
Gözetimli öğrenmede model, belirli giriş özelliği kalıplarından belirli çıkış etiketi değerlerine kadar matematiksel ilişkiyi tanımlayan karmaşık bir sayı koleksiyonudur. Model, bu kalıpları eğitim aracılığıyla keşfeder.
Eğitim
Gözetimli bir modelin tahminde bulunabilmesi için öncelikle eğitilmesi gerekir. Bir modeli eğitmek için modele, etiketlenmiş örnekler içeren bir veri kümesi veririz. Modelin amacı, özelliklerden etiketleri tahmin etmek için en iyi çözümü bulmaktır. Model, tahmin edilen değerini etiketin gerçek değeriyle karşılaştırarak en iyi çözümü bulur. Model, tahmini ve gerçek değerler (kayıp olarak tanımlanır) arasındaki farka göre, çözümünü kademeli olarak günceller. Diğer bir deyişle, model, özellikler ve etiket arasındaki matematiksel ilişkiyi öğrenerek görülmeyen veriler hakkında en iyi tahminleri yapabilir.
Örneğin, model yağmur yağışının 1.15 inches
olacağını tahmin etmesine rağmen gerçek değer .75 inches
ise model, çözümünü .75 inches
değerine daha yakın olacak şekilde değiştirir. Model, veri kümesindeki her örneği (bazı durumlarda, birkaç kez) inceledikten sonra, bu örneklerin her biri için ortalama olarak en iyi tahminleri veren bir çözüme ulaşır.
Aşağıda bir modelin eğitilmesi gösterilmektedir:
Model, tek bir etiketli örneği alır ve bir tahmin sağlar.
Şekil 1. Etiketli örnekten tahminde bulunan ML modeli.
Model, tahmin edilen değerini gerçek değerle karşılaştırır ve çözümünü günceller.
2. Şekil. Tahmin edilen değerini güncelleyen bir ML modeli.
Model, bu işlemi veri kümesindeki her etiketlenmiş örnek için tekrarlar.
3. Şekil. Eğitim veri kümesindeki her etiketli örnek için tahminlerini güncelleyen bir ML modeli.
Bu şekilde model, özellikler ile etiket arasındaki doğru ilişkiyi kademeli olarak öğrenir. Bu kademeli anlayış aynı zamanda büyük ve çeşitli veri verilerinin daha iyi bir model üretmesini de sağlar. Model, daha geniş bir değer aralığında daha fazla veri gördü ve özellikler ile etiket arasındaki ilişkiyi daha iyi anladı.
Makine öğrenimi uzmanları eğitim sırasında yapılandırmalarda ve modelin tahmin yapmak için kullandığı özelliklerde ince ayarlamalar yapabilir. Örneğin, bazı özellikler diğerlerinden daha fazla tahmin gücüne sahiptir. Bu nedenle, makine öğrenimi uygulayıcıları eğitim sırasında modelin hangi özellikleri kullanacağını seçebilir. Örneğin, bir hava durumu veri kümesinin özellik olarak time_of_day
içerdiğini varsayalım. Bu durumda, makine öğrenimi uygulayıcıları eğitim sırasında time_of_day
parametresini ekleyerek veya kaldırarak modelin bu modelle ya da olmadan daha iyi tahminler yapıp yapmadığını görebilir.
Değerlendiriliyor
Eğitilmiş bir modeli ne kadar iyi öğrendiğini belirlemek için değerlendiririz. Bir modeli değerlendirirken etiketli bir veri kümesi kullanırız ancak modele yalnızca veri kümesinin özelliklerini veririz. Daha sonra modelin tahminlerini etiketin doğru değerleriyle karşılaştırırız.
4. Şekil. Tahminlerini gerçek değerlerle karşılaştırarak bir ML modelini değerlendirme.
Modelin tahminlerine bağlı olarak, modeli gerçek dünyadaki bir uygulamada dağıtmadan önce daha fazla eğitim ve değerlendirme yapabiliriz.
Öğrendiklerinizi Sınayın
Çıkarım
Modeli değerlendirmenin sonuçlarından memnun olduğumuzda, modeli etiketlenmemiş örnekler üzerinde çıkarımlar adı verilen tahminlerde bulunmak için kullanabiliriz. Hava durumu uygulaması örneğinde modele sıcaklık, atmosferik basınç ve bağıl nem gibi güncel hava koşullarını verir ve yağış miktarını tahmin ederdik.