Kümeleme

Machine Learning Crash Course'dan önemli bir fikri hızla inceleyerek başlayalım. Dağılımı aşağıdaki grafikte görebilirsiniz.

Enlem başına ev sayısı grafiği. Harita, 36 ve 34 ile 38
 arası enlemlerde büyük damlalar içeren oldukça düzensizdir. Şekil 1: Kurum fiyatları ve enlem karşılaştırması.

 

Aşağıdaki soru için yanıtınızı kontrol etmek üzere istediğiniz oku tıklayın:

Şekil 1'i inceleyin. Enlemin, konut değerlerinin iyi bir göstergesi olduğunu düşünüyorsanız kayan nokta değeri olarak enlemi bırakmanız gerekir mi? Bunun nedeni nedir? (Bunun doğrusal bir model olduğunu varsayalım.)
Evet. Enlem, veri kümesinde bir kayan nokta değeriyse bunu değiştirmemelisiniz.
Bu kayan nokta değerlerini ağınıza beslerseniz özellik ve etiket arasında doğrusal bir ilişki hakkında bilgi edinmeye çalışır. Ancak, doğrusal bir ilişki muhtemelen enlem için olmayacaktır. Enlemdeki bir derecelik artış (örneğin, 34 ila 35 derece), modelin çıkışında bir miktar değişiklik sağlarken farklı bir derecelik artış (örneğin, 35 ila 36 derece) farklı miktarda değişiklik sağlayabilir. Bu, doğrusal olmayan davranıştır.
Hayır. Enlem ve konut değerleri arasında doğrusal bir ilişki yoktur.
Bağımsız enlemlerin ve konut değerlerinin ilişkili olduğundan şüpheleniyorsunuz, ancak ilişki doğrusal değildir.

Enlem örneği gibi durumlarda, her bir bölümün barındırma değerleri hakkında farklı bir şey öğrenmek için enlemleri gruplara bölmeniz gerekir. Sayısal özelliklerin bir dizi eşik kullanılarak kategorize özelliklere dönüştürülmesine, gruplandırma (veya bağlama) adı verilir. Bu grup örneğinde sınırlar eşit aralıklıdır.

Önceki değerle aynı enlem ve konut fiyatları grafiği. Ancak bu sefer, olay örgüsü tam sayı enlemleri arasında 11 binlik kutuya bölünür.

 

Şekil 2: Ev fiyatları ve enlem karşılaştırması, artık gruplara bölünmüştür.

Çeyrek Paketleme

Paketler eklenmiş olarak araba fiyatı veri kümenizi yeniden ziyaret edelim. Paket başına bir özellikle, model 5000-10.000 aralığındaki tüm örnekler için olduğu gibi 45.000 aralıktaki tek bir örnek için yeterli kapasite kullanır. Bunu yapmak gereksiz. Bu durumu nasıl iyileştirebiliriz?

Bu fiyattan satılan araç başına otomobil fiyatı grafiği. Grafik, aralığı 5.000 (araba fiyatı) olan eşit büyüklükte 10 gruba bölünür. İlk üç paket birçok örnek içerir, ancak son yedi paket çok az örnek içerir.

3. Şekil: Farklı fiyatlarla satılan araba sayısı.

 

Sorun, eşit aralıklı paketlerin bu dağılımı iyi yakalamamasıdır. Çözüm, her biri aynı sayıda puana sahip paketler oluşturmaktan geçiyor. Bu teknike çeyreksel paketleme denir. Örneğin, aşağıdaki şekilde araba fiyatları dörtlü gruplara bölünmektedir. Her bir pakette aynı sayıda örnek almak için bazı paketler dar bir fiyat aralığını, bazıları da çok geniş bir fiyat aralığını kapsar.

Sayısal gruplar hariç, Şekil 3 ile aynıdır. Yani, paketlerin artık farklı boyutları vardır. En küçük paketin aralığı yaklaşık 1.000 dolar ve en büyük paketin aralığı yaklaşık 25.000 dolardır.
Her bir paketteki arabaların sayısı
hemen hemen aynı.

4. Şekil: Üçgen paketleme, her gruba yaklaşık olarak aynı sayıda araba verir.

Gruplama Özeti

Sayısal özelliklerinizi gruplandırmayı seçerseniz sınırları nasıl belirlediğiniz ve hangi tür paket uyguladığınız hakkında net olun:

  • Eşit aralıklı paketler: Sınırlar sabittir ve aynı aralığı kapsar (ör. 0-4 derece, 5-9 derece ve 10-14 derece veya 5.000-9.999 ABD doları, 10.000-14.999 ABD doları ve 15.000-19.999 ABD doları). Bazı paketlerde çok fazla puan bulunurken bazılarında az sayıda öğe bulunabilir veya hiç bulunmayabilir.
  • Kuyruk sınırları olan paketler: Her bir pakette aynı sayıda nokta vardır. Sınırlar sabit değildir ve dar veya geniş bir değer aralığını kapsayabilir.