Gözetimli Öğrenme

Gözetimli öğrenmenin görevleri iyi tanımlanmıştır ve spam tespiti ya da yağış tahminini tahmin etme gibi birçok senaryoya uygulanabilir.

Gözetimli temel öğrenim kavramları

Gözetimli makine öğrenimi aşağıdaki temel kavramlara dayanır:

  • Veriler
  • Model
  • Eğitim
  • Değerlendiriliyor
  • Çıkarım

Veriler

Makine öğreniminin itici gücü verilerdir. Veriler, tablolarda depolanan kelimeler ve sayılar şeklinde veya görüntüler ile ses dosyalarında yakalanan piksel ve dalga biçimi değerleri olarak sunulur. İlgili verileri veri kümelerinde depolarız. Örneğin, aşağıdaki gibi bir veri kümemiz olabilir:

  • kedi görselleri
  • Konut fiyatları
  • Hava durumu

Veri kümeleri, özellikler ve bir etiket içeren bağımsız örneklerden oluşur. Bir örneği, bir elektronik tablodaki tek bir satıra benzetebiliriz. Özellikler, gözetimli bir modelin etiketi tahmin etmek için kullandığı değerlerdir. Etiket, "yanıt", yani modelin tahmin etmesini istediğimiz değerdir. Yağış tahminini tahmin eden bir hava durumu modelinde özellikler enlem, boylam, sıcaklık, nem, bulut kapsamı, rüzgar yönü ve atmosferik basınç olabilir. Bu etiket, yağış miktarı olacaktır.

Hem özellik hem de bir etiketi içeren örneklere etiketli örnekler adı verilir.

İki etiketli örnek

Yer tutucu resmi.

Buna karşılık, etiketlenmemiş örnekler özellik içerir ancak etiket içermez. Bir model oluşturmanızdan sonra, model, etiketi özelliklerden tahmin eder.

Etiketlenmemiş iki örnek

Yer tutucu resmi.

Veri kümesi özellikleri

Veri kümesi, boyutu ve çeşitliliği ile tanımlanır. Boyut, örnek sayısını gösterir. Çeşitlilik bu örneklerin kapsadığı aralığı belirtir. İyi veri kümeleri hem büyük hem de son derece çeşitlidir.

Bazı veri kümeleri hem büyük hem de çeşitlidir. Bununla birlikte, bazı veri kümeleri büyüktür ancak çeşitliliği az, bazıları ise küçük ancak son derece çeşitlidir. Başka bir deyişle, büyük bir veri kümesi yeterli çeşitliliği garanti etmez ve son derece çeşitliliğe sahip bir veri kümesi, yeterli örnek garantisi vermez.

Örneğin, bir veri kümesi yalnızca Temmuz ayına ait olmakla birlikte 100 yıllık veriler içerebilir. Ocak ayında yağış miktarıyla ilgili tahminde bulunmak için bu veri kümesini kullanmak kötü tahminler üretecektir. Buna karşılık, veri kümesi yalnızca birkaç yılı kapsasa da her ayı içerebilir. Bu veri kümesi, değişkenliği hesaba katacak kadar yıl içermediğinden kötü tahminler üretebilir.

Öğrendiklerinizi Sınayın

Bir veri kümesinin hangi özelliklerinin makine öğrenimi için kullanılması ideal olur?
Büyük boyut / Yüksek çeşitlilik
Makine öğrenimi sisteminin verilerdeki temel kalıpları anlaması için çeşitli kullanım alanlarını kapsayan çok sayıda örnek olması gerekir. Bu tür veri kümelerine eğitilen bir modelin yeni veriler hakkında iyi tahminlerde bulunma olasılığı daha yüksektir.
Büyük boyut / Düşük çeşitlilik
Makine öğrenimi modellerinin başarılı olması için onları eğitmek için kullanılan örnekler yeterlidir. Bir model, hiç eğitilmediği yeni veriler hakkında daha kötü tahminler üretir.
Küçük boyut / Yüksek çeşitlilik
Çoğu model, küçük bir veri kümesinde güvenilir kalıplar bulamaz. Tahminler, daha büyük bir veri kümesinin sağladığı güveni kaybeder.
Küçük boyut / Düşük çeşitlilik
Veri kümeniz küçükse ve çok fazla varyasyon yoksa makine öğreniminden yararlanamayabilirsiniz.

Bir veri kümesi, özelliklerinin sayısı ile de karakterize edilebilir. Örneğin, bazı hava durumu veri kümeleri, uydu görüntülerinden bulut kapsama değerlerine kadar yüzlerce özellik içerebilir. Başka veri kümeleri ise nem, atmosferik basınç ve sıcaklık gibi yalnızca üç ya da dört özellik içerebilir. Daha fazla özelliğe sahip veri kümeleri, bir modelin ek kalıpları keşfetmesine ve daha iyi tahminler yapmasına yardımcı olabilir. Bununla birlikte, daha fazla özelliğe sahip veri kümeleri her zaman daha iyi tahminler yapan modeller üretmez. Çünkü bazı özelliklerin etiketle herhangi bir nedensel ilişkisi olmayabilir.

Model

Gözetimli öğrenmede model, belirli giriş özelliği kalıplarından belirli çıkış etiketi değerlerine kadar matematiksel ilişkiyi tanımlayan karmaşık bir sayı koleksiyonudur. Model, bu kalıpları eğitim aracılığıyla keşfeder.

Eğitim

Gözetimli bir modelin tahminde bulunabilmesi için öncelikle eğitilmesi gerekir. Bir modeli eğitmek için modele, etiketlenmiş örnekler içeren bir veri kümesi veririz. Modelin amacı, özelliklerden etiketleri tahmin etmek için en iyi çözümü bulmaktır. Model, tahmin edilen değerini etiketin gerçek değeriyle karşılaştırarak en iyi çözümü bulur. Model, tahmini ve gerçek değerler (kayıp olarak tanımlanır) arasındaki farka göre, çözümünü kademeli olarak günceller. Diğer bir deyişle, model, özellikler ve etiket arasındaki matematiksel ilişkiyi öğrenerek görülmeyen veriler hakkında en iyi tahminleri yapabilir.

Örneğin, model yağmur yağışının 1.15 inches olacağını tahmin etmesine rağmen gerçek değer .75 inches ise model, çözümünü .75 inches değerine daha yakın olacak şekilde değiştirir. Model, veri kümesindeki her örneği (bazı durumlarda, birkaç kez) inceledikten sonra, bu örneklerin her biri için ortalama olarak en iyi tahminleri veren bir çözüme ulaşır.

Aşağıda bir modelin eğitilmesi gösterilmektedir:

  1. Model, tek bir etiketli örneği alır ve bir tahmin sağlar.

    Tahminde bulunan bir modelin resmi.

    Şekil 1. Etiketli örnekten tahminde bulunan ML modeli.

     

  2. Model, tahmin edilen değerini gerçek değerle karşılaştırır ve çözümünü günceller.

    Tahminini gerçek değerle karşılaştıran bir modelin resmi.

    2. Şekil. Tahmin edilen değerini güncelleyen bir ML modeli.

     

  3. Model, bu işlemi veri kümesindeki her etiketlenmiş örnek için tekrarlar.

    Gerçek değere karşı tahmin sürecini tekrarlayan bir modelin resmi.

    3. Şekil. Eğitim veri kümesindeki her etiketli örnek için tahminlerini güncelleyen bir ML modeli.

     

Bu şekilde model, özellikler ile etiket arasındaki doğru ilişkiyi kademeli olarak öğrenir. Bu kademeli anlayış aynı zamanda büyük ve çeşitli veri verilerinin daha iyi bir model üretmesini de sağlar. Model, daha geniş bir değer aralığında daha fazla veri gördü ve özellikler ile etiket arasındaki ilişkiyi daha iyi anladı.

Makine öğrenimi uzmanları eğitim sırasında yapılandırmalarda ve modelin tahmin yapmak için kullandığı özelliklerde ince ayarlamalar yapabilir. Örneğin, bazı özellikler diğerlerinden daha fazla tahmin gücüne sahiptir. Bu nedenle, makine öğrenimi uygulayıcıları eğitim sırasında modelin hangi özellikleri kullanacağını seçebilir. Örneğin, bir hava durumu veri kümesinin özellik olarak time_of_day içerdiğini varsayalım. Bu durumda, makine öğrenimi uygulayıcıları eğitim sırasında time_of_day parametresini ekleyerek veya kaldırarak modelin bu modelle ya da olmadan daha iyi tahminler yapıp yapmadığını görebilir.

Değerlendiriliyor

Eğitilmiş bir modeli ne kadar iyi öğrendiğini belirlemek için değerlendiririz. Bir modeli değerlendirirken etiketli bir veri kümesi kullanırız ancak modele yalnızca veri kümesinin özelliklerini veririz. Daha sonra modelin tahminlerini etiketin doğru değerleriyle karşılaştırırız.

Tahminleri gerçek değerlerle karşılaştıran eğitilmiş bir modeli gösteren resim.

4. Şekil. Tahminlerini gerçek değerlerle karşılaştırarak bir ML modelini değerlendirme.

 

Modelin tahminlerine bağlı olarak, modeli gerçek dünyadaki bir uygulamada dağıtmadan önce daha fazla eğitim ve değerlendirme yapabiliriz.

Öğrendiklerinizi Sınayın

Bir modelin tahminde bulunabilmesi için neden eğitilmesi gerekir?
Özellikler ile veri kümesindeki etiket arasındaki matematiksel ilişkiyi öğrenmek için bir modelin eğitilmesi gerekir.
Modellerin eğitilmesi gerekmez. Modeller çoğu bilgisayarda mevcuttur.
Tahminde bulunmak için veri gerektirmemesi için bir modelin eğitilmesi gerekir.

Çıkarım

Modeli değerlendirmenin sonuçlarından memnun olduğumuzda, modeli etiketlenmemiş örnekler üzerinde çıkarımlar adı verilen tahminlerde bulunmak için kullanabiliriz. Hava durumu uygulaması örneğinde modele sıcaklık, atmosferik basınç ve bağıl nem gibi güncel hava koşullarını verir ve yağış miktarını tahmin ederdik.