Sonuçları Yorumlama ve Kümelemeyi Ayarlama

Kümeleme gözetimsiz olduğundan, sonuçları doğrulamak için "doğru" bir seçenek yoktur. Doğru olmaması, kalitenin değerlendirilmesini karmaşık bir hale getirir. Ayrıca, gerçek dünya veri kümeleri genellikle Şekil 1'de gösterilen veri kümesi gibi belirgin örnek kümelerine düşmez.

Üç net veri noktası grubunu gösteren grafik
Şekil 1: İdeal bir veri senaryosu; gerçek dünyadaki veriler nadiren böyle görünür.

Ne yazık ki gerçek dünya verileri daha fazla Şekil 2 gibi görünüyor, bu da kümeleme kalitesini görsel olarak değerlendirmeyi zorlaştırıyor.

Rastgele veri noktaları içeren bir grafik
Şekil 2: Gerçek hayattan bir veri planı

Aşağıdaki akış şemasında, kümelemenizin kalitesini nasıl kontrol edeceğiniz özetlenmiştir. İlerleyen bölümlerde bu bölümü genişleteceğiz.

Doğrulama sürecinin görsel akışı
Bu grafiğin daha büyük bir sürümünü görmek için burayı tıklayın.

Birinci Adım: Kümeleme Kalitesi

Kümelemenin "doğru" olmaması nedeniyle kümeleme kalitesini kontrol etmek titiz bir süreç değildir. Kümelemenizin kalitesini artırmak için tekrarlı olarak uygulayabileceğiniz kurallar aşağıda verilmiştir.

Öncelikle, kümelerin beklendiği gibi göründüğünden ve benzer olduğunu düşündüğünüz örneklerin aynı kümede göründüğünden emin olun. Daha sonra, aşağıdaki bölümlerde açıklanan yaygın olarak kullanılan metrikleri kontrol edin:

  • Küme kardinalitesi
  • Küme büyüklüğü
  • Aşağı akış sistemi performansı
Birkaç kümenin kardinalitesini gösteren bir çubuk grafik. Bazı kümelerin farkları büyüktür.
Şekil 2: Birkaç kümenin kardinalitesi.

Küme kardinalitesi

Küme kardinalitesi, küme başına örnek sayısıdır. Tüm kümelerin küme kardinalitesini çizin ve büyük aykırı değerlere sahip kümeleri araştırın. Örneğin, Şekil 2'de, küme 5'i inceleyebilirsiniz.

Birden fazla kümenin büyüklüğünü gösteren bir çubuk grafik. Bir kümenin şiddeti diğer kümelerden önemli ölçüde daha yüksektir.
Şekil 3: Çeşitli kümelerin büyüklüğü.

Küme büyüklüğü

Küme genişliği, tüm örneklerden kümenin merkezine olan mesafenin toplamıdır. Kardinaliteye benzer şekilde, şiddetin kümeler arasında nasıl değiştiğini kontrol edin ve anormallikleri araştırın. Örneğin, Şekil 3'te küme numarası 0'ı araştırmak.

Çeşitli kümelerin kardinalitesini ve büyüklüğünü gösteren bir dağılım grafiği. Bir küme, olay örgüsünde aykırı değerdedir.
Şekil 4: Çeşitli kümelerin kardinalitesi ve büyüklüğü.

Büyüklük ve Kardinalite

Daha yüksek küme kardinalitesinin genellikle sezgisel olarak mantıklı olan daha yüksek küme kapasitesiyle sonuçlandığına dikkat edin. Kardinalite diğer boyutlarla görece büyüklükle eşleşmediğinde kümeler anormaldir. Kardinaliteye göre büyüklüğü çizerek anormal kümeleri bulun. Örneğin, Şekil 4'te küme metriklerine bir çizgi eklendiğinde küme numarası 0 anormaldir.

Aşağı akış sistemi performansı

Kümeleme çıkışı genellikle aşağı akış ML sistemlerinde kullanıldığından, kümeleme işleminiz değiştiğinde aşağı akış sisteminin performansının artıp artmadığını kontrol edin. Aşağı akış performansınız üzerindeki etki, kümelemenizin kalitesi için gerçek dünya testi sağlar. Dezavantajı, bu kontrolü gerçekleştirmenin karmaşık olmasıdır.

Sorunların Bulunup Bulunmadığını İncelemek İçin Sorulan Sorular

Sorun bulursanız kendinize şu soruları sorarak veri hazırlama ve benzerlik kontrolünüzü kontrol edin:

  • Verileriniz ölçeklendiriliyor mu?
  • Benzerlik ölçümünüz doğru mu?
  • Algoritmanız, verilerde anlamsal açıdan anlamlı işlemler gerçekleştiriyor mu?
  • Algoritmanızın varsayımları verilerle eşleşiyor mu?

İkinci Adım: Benzerlik Ölçümünün Performansı

Kümeleme algoritmanız sadece benzerlik ölçüsünüz kadar iyidir. Benzerlik ölçümünüzün makul sonuçlar döndürdüğünden emin olun. En basit denetim, diğer eşlemelerden daha fazla veya daha az bilinen bilinen çift çifti tanımlamaktır. Ardından, her örnek çifti için benzerlik ölçüsünü hesaplayın. Daha fazla benzer örnek için benzerlik ölçüsü, daha az benzer örnekler için benzerlik ölçüsünden daha yüksek olmalıdır.

Benzerlik ölçümünüzü belirlemek için kullandığınız örnekler, veri kümesini temsil etmelidir. Benzerlik ölçümünüzün tüm örneklerinizde geçerli olduğundan emin olun. Dikkatli doğrulama, ister manuel ister gözetimli olsun, benzerlik ölçümünüzün veri kümenizde tutarlı olmasını sağlar. Benzerlik ölçümünüz bazı örnekler için tutarsızsa bu örnekler benzer örneklerle kümelenmez.

Yanlış benzerliklere sahip örnekler bulursanız benzerlik ölçümünüz, bu örnekleri ayıran özellik verilerini yakalamıyor olabilir. Benzerlik ölçümünüzle denemeler yapın ve benzerlik sayısının daha doğru olup olmadığını belirleyin.

Üçüncü Adım: Optimum Küme Sayısı

k- ortalaması, küme sayısını \(k\) öncelikle belirlemenizi gerektirir. \(k\)için optimum değeri nasıl belirlersiniz? Artan algoritmayı çalıştırmayı \(k\) deneyin ve küme büyüklüklerinin toplamını not edin. \(k\) arttıkça küme sayısı küçülür ve toplam mesafe azalır. Bu mesafeyi küme sayısına göre çizin.

Şekil 4'te gösterildiği gibi, belirli bir \(k\)sürümünde, kayıplardaki düşüşün artması \(k\)anlamına gelir. Matematiksel olarak bu, yaklaşık olarak \(k\) eğimin -1 (\(\theta > 135^{\circ}\)) değerinin üzerine çıktığı anlamına gelir. Bu yönerge, optimum sonuç için tam bir değer belirtmez \(k\) , yalnızca yaklaşık bir değerdir. Gösterilen olay örgüsü için optimum \(k\) yaklaşık 11'dir. Daha ayrıntılı kümeleri tercih ederseniz bu grafiği \(k\) yol gösterici olarak kullanarak daha yüksek bir küme seçebilirsiniz.

Kullanılan kayıp karşısındaki kümeleri gösteren bir grafik. Küme sayısı 10 kümeye ulaşana
kadar küme sayısı arttıkça kayıplar da azalır
Şekil 4: Kayıp ile küme sayısı karşılaştırması