Kümeleme nedir?

Örneğin, müzik hakkında bilgi edinmeye çalışırken anlamlı gruplar veya koleksiyonlar bulmak için kullanabileceğiniz bir yaklaşım olabilir. Müziği türe göre düzenleyebilirsiniz, arkadaşlarınız ise on yıla göre müzik düzenleyebilir. Öğeleri gruplamayı seçmeniz, öğeleri ayrı müzik parçaları olarak daha iyi anlamanıza yardımcı olur. Punk rock ile ilgili ayrıntılı ilişkiniz olduğunu ve türün farklı konumlardan veya farklı konumlardan müzik türünde ayrıntılı inceleme yapıldığını fark edebilirsiniz. Öte yandan, arkadaşınız 1980'lere ait müziklere bakabilir ve o sırada türlerin müziğinin sosyopolitik iklimden nasıl etkilendiğini anlayabilir. Her iki durumda da farklı yaklaşımlar uygulaysanız da arkadaşınızla birlikte müzik hakkında ilginç bir bilgi edinmiş olursunuz.

Makine öğreniminde, makine öğrenimi sistemindeki konuları (veri kümesi) anlamanın ilk adımı olarak genellikle örnekleri gruplandırırız. Etiketlenmemiş örnekleri gruplandırmaya kümeleme denir.

Örnekler etiketlenmediği için kümeleme, gözetimsiz makine öğrenimine dayanır. Örnekler etiketlenmişse kümeleme sınıflandırma haline gelir. Gözetimli ve gözetimsiz yöntemler hakkında daha ayrıntılı bilgi almak için Makine Öğrenimi Sorun Çerçevesi'ne Giriş sayfasını inceleyin.

Üç kümenin gösterildiği bir grafik
Şekil 1: Üç kümede gruplandırılmış etiketlenmemiş örnekler.

Benzer örnekleri gruplandırmadan önce benzer örnekleri bulmanız gerekir. Örneklerin özellik verilerini, benzerlik ölçümü adı verilen bir metrikte birleştirerek örnekler arasındaki benzerliği ölçebilirsiniz. Her örnek bir veya iki özellikle tanımlandığında, benzerliği ölçmek kolaydır. Örneğin, yazarlarının benzer kitaplarını bulabilirsiniz. Özellik sayısı arttıkça benzerlik önlemlerinin oluşturulması da daha karmaşık hale gelir. Daha sonra farklı senaryolarda benzerlik önlemlerinin nasıl oluşturulacağını göreceğiz.

Kümelemenin Kullanımları nelerdir?

Kümelemenin çeşitli sektörlerde sayısız kullanımı vardır. Kümeleme için yaygın olarak kullanılan bazı uygulamalar şunlardır:

  • pazar segmentasyonu
  • sosyal ağ analizi
  • arama sonucu gruplandırması
  • tıbbi görüntüleme
  • görüntü segmentasyonu
  • anormallik algılama

Kümelemeden sonra her kümeye küme kimliği adı verilen bir numara atanır. Artık bir örnek için tüm özellik kümesini küme kimliğine ekleyebilirsiniz. Karmaşık bir örneği basit bir küme kimliğiyle temsil etmek, kümelemeyi güçlü hale getirir. Fikirleri genişleterek kümeleme, büyük veri kümelerini basitleştirebilir.

Örneğin, aşağıdaki örneklerde gösterildiği gibi öğeleri farklı özelliklere göre gruplandırabilirsiniz:

Örnekler
  • Parlaklığa göre yıldızları gruplandır.
  • Bitkileri genetik bilgilere göre bir sınıflandırmada gruplandırır.
  • Dokümanları konuya göre gruplandırın.

Makine öğrenimi sistemleri, daha sonra büyük veri kümelerinin işlenmesini kolaylaştırmak için küme kimliklerini kullanabilir. Böylece kümelemenin sonucu, aşağı akış makine öğrenimi sistemleri için özellik verileri olarak işlev görür.

Google'da kümeleme; YouTube videoları, Play uygulamaları ve Müzik kanalları gibi ürünlerde genelleştirme, veri sıkıştırma ve gizlilik koruması için kullanılır.

Genelleştirme

Bir kümedeki bazı örneklerin özellik verileri eksik olduğunda kümedeki diğer örneklerden eksik verileri saptayabilirsiniz.

Örnek
Daha az popüler olan videolar, video önerilerini iyileştirmek için daha popüler videolarla birleştirilebilir.

Veri Sıkıştırma

Konuşulduğu gibi, bir kümedeki tüm örneklerin özellik verileri, ilgili küme kimliğiyle değiştirilebilir. Bu değiştirme işlemi, özellik verilerini basitleştirir ve depolama alanından tasarruf eder. Bu avantajlar, büyük veri kümelerine ölçeklendirildiğinde önemli hale gelir. Ayrıca, makine öğrenimi sistemleri, özellik veri kümesinin tamamı yerine giriş kimliğini olarak küme kimliğini kullanabilir. Giriş verilerinin karmaşıklığını azaltmak, makine öğrenimi modelini daha basit ve daha hızlı eğitilir.

Örnek
Tek bir YouTube videosu için özellik verileri şunları içerebilir:
  • Konum, saat ve demografi ile ilgili izleyici verileri
  • Zaman damgaları, metinler ve kullanıcı kimlikleri içeren yorum verileri
  • video etiketleri
YouTube videolarını kümelemek, bu özellik grubunu tek bir küme kimliğiyle değiştirmenize ve böylece verilerinizi sıkıştırmanıza olanak tanır.

Gizlilik Koruması

Kullanıcıları gruplandırarak ve kullanıcı verilerini belirli kullanıcılar yerine küme kimlikleriyle ilişkilendirerek gizliliği koruyabilirsiniz. Kullanıcı verilerini belirli bir kullanıcıyla ilişkilendiremediğinizden emin olmak için kümenin yeterli sayıda kullanıcıyı gruplandırması gerekir.

Örnek
YouTube kullanıcılarının video geçmişini modelinize eklemek istediğinizi varsayalım. User-ID'yi kullanmak yerine, kullanıcıları kümeleyebilir ve bunun yerine küme kimliğini kullanabilirsiniz. Bu aşamada modeliniz, video geçmişini belirli bir kullanıcıyla değil, yalnızca büyük bir kullanıcı grubunu temsil eden bir küme kimliğiyle ilişkilendirebilir.