Makine Öğrenimi Sözlüğü: Kümeleme

Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

Bu sayfada Kümeleme sözlüğü terimleri bulunuyor. Tüm sözlük terimleri için burayı tıklayın.

A

toplama kümeleme

#clustering

Hiyerarşik kümeleme konusuna bakın.

C

centroid

#clustering

Küme, k-ortalaması veya k-ortan algoritması tarafından belirlenen merkezidir. Örneğin, k 3 ise k ortalamaları veya k-ortanca algoritması 3 santimetre bulur.

centroid tabanlı kümeleme

#clustering

Verileri hiyerarşik olmayan kümeler halinde düzenleyen kümeleme algoritmaları kategorisi. K-ortalama, en yaygın olarak kullanılan merkezli kümeleme algoritmasıdır.

Hiyerarşik kümeleme algoritmalarıyla kontrast oluşturur.

kümeleme

#clustering

İlgili örnekleri, özellikle gözetimsiz öğrenme sırasında gruplandırma. Tüm örnekler gruplandıktan sonra insan, her bir kümeye isteğe bağlı olarak anlama sağlayabilir.

Birçok kümeleme algoritması vardır. Örneğin, k-ortalama algoritma, aşağıdaki şemada olduğu gibi bir merkezli yakınlığa göre küme örnekleri gösterir:

X ekseninin 'ağaç genişliği' şeklinde etiketlendiği ve y ekseninin 'ağaç yüksekliği' olarak etiketlendiği iki boyutlu grafik.  Grafikte iki centroid ve birkaç düzine veri noktası bulunur. Veri noktaları, yakınlıklarına göre kategorilere ayrılır. Yani, bir merkeze en yakın
 veri noktaları 'küme 1' diğer
 merkeze en yakın
 veri noktaları ise 'küme 2' olarak sınıflandırılır.

Gerçek kişi olan araştırmacı, kümeleri inceleyebilir ve örneğin, 1. kümeyi "cüce ağaçları" ve 2. kümeyi "tam boyutlu ağaçlar" olarak etiketleyebilir.

Başka bir örnek vermek gerekirse, aşağıda gösterilen şekilde bir örneğin merkezden uzaklığını temel alan bir kümeleme algoritmasını inceleyelim:

İç içe geçmiş çemberlerde düzinelerce veri noktası düzenlenir. Bu nokta, neredeyse bir dart tahtasının ortasındaki delikler gibidir. Veri noktalarının en iç halkası 'küme 1', orta halka ise 'küme 2' ve dış çember 'küme 3.'

G

ayrı kümeleme

#clustering

Hiyerarşik kümeleme konusuna bakın.

H

hiyerarşik kümeleme

#clustering

Küme ağacı oluşturan kümeleme algoritmaları kategorisi. Hiyerarşik kümeleme, botanik sınıflandırmalar gibi hiyerarşik verilere uygundur. İki tür hiyerarşik kümeleme algoritması vardır:

  • Toplama kümeleme her örneği kendi kümesine atar ve hiyerarşik bir ağaç oluşturmak için en yakın kümeleri tekrar tekrar birleştirir.
  • Bölme kümeleme, ilk olarak tüm örnekleri tek bir kümede gruplandırır ve daha sonra kümeyi hiyerarşik bir ağaça böler.

Merkezi tabanlı kümeleme ile kontrast oluşturur.

K

k ortalama

#clustering

Gözetimsiz öğrenmede örnekleri gruplandıran popüler bir kümeleme algoritması. K-ortalama algoritması temel olarak aşağıdakileri yapar:

  • En iyi k merkezi noktalarını (merkezler olarak bilinir) tekrar tekrar belirler.
  • Her bir örneği en yakın merkeze atar. Aynı merkeze en yakın örnekler aynı gruba aittir.

K-ortalama algoritması, her bir örnekten en yakın merkeze olan mesafenin kümülatif kare değerini en aza indirmek için merkezi konumları seçer.

Örneğin, köpek boyundan köpek genişliğine uzanan aşağıdaki grafiği göz önünde bulundurun:

Birkaç düzine veri noktası bulunan bir Cartesian hikayesi.

K=3 olduğunda k-ortalaması algoritması üç santimetre belirler. Her örnek en yakın merkeze atanır ve üç grup oluşturulur:

Önceki resimdekiyle aynı Cartesian hikayesi eklendi ancak üç santral eklendi.
          Önceki veri noktaları, her biri belirli bir merkezi merkeze en yakın veri noktalarını temsil eden üç ayrı kümede toplanmıştır.

Bir üreticinin köpekler için küçük, orta ve büyük kazaklar için ideal bedenleri belirlemek istediğini varsayalım. Üç merkezi öğe, bu kümedeki her bir köpeğin ortalama yüksekliği ve ortalama genişliğini tanımlar. Bu nedenle üretici, kazak boyutlarını bu üç merkeze dayandırmalıdır. Bir kümenin merkezi türünün genellikle kümedeki bir örnek olmadığını unutmayın.

Yukarıdaki resimlerde, yalnızca iki özelliği (yükseklik ve genişlik) olan örnekler için k ortalamalarını gösterilmektedir. K-ortalamalarının örnekleri birçok özellik altında gruplandırabileceğini unutmayın.

k-ortanca

#clustering

K-ortalamaları ile yakından alakalı bir kümeleme algoritması. İkisi arasındaki pratik fark şudur:

  • K-ortalamasında, centroidler bir centroid adayı ile örneklerinin arasındaki mesafenin karelerinin en aza indirgenmesiyle belirlenir.
  • K-ortancasında, centroidler bir centroid adayı ile örneklerinin her biri arasındaki mesafenin en aza indirilmesiyle belirlenir.

Mesafe tanımlarının da farklı olduğunu unutmayın:

  • k ortalamaları, merkezin bir örneğe olan Öklid mesafesine dayanır. (İki boyut olarak Öklid mesafesi, hipotenüsü hesaplamak için Pisagor teoremini kullanmak anlamına gelir.) Örneğin, k (ortalama) (2,2) ile (5,-2) arasındaki mesafe aşağıdaki gibi olur:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median, merkezden bir örneğe Manhattan mesafesine dayanır. Bu mesafe, her bir boyuttaki mutlak deltaların toplamıdır. Örneğin, (2,2) ile (5,-2) arasındaki k-ortanca mesafe şu şekildedir:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

C

benzerlik ölçüsü

#clustering

Kümeleme algoritmalarında, iki örneğin ne kadar benzer (ne kadar benzer) olduğunu belirlemek için kullanılan metrik.

eskiz

#clustering

Gözetimsiz makine öğrenimi'nde, örnekler üzerinde ön benzerlik analizi gerçekleştiren bir algoritma kategorisidir. Çizim algoritmaları, benzer olabilecek noktaları tanımlamak için bölgeye duyarlı bir karma işlevi kullanarak bunları gruplara ayırır.

Skeç, büyük veri kümelerinde benzerlik hesaplamaları için gereken hesaplamayı azaltır. Veri kümesindeki her bir örnek çifti için benzerliği hesaplamak yerine, her bir paketteki her bir nokta çifti için benzerliği hesaplarız.

T

zaman serisi analizi

#clustering

Geçici verileri analiz eden makine öğreniminin ve istatistiklerin alt alanı. Sınıflandırma, kümeleme, öngörme ve anormallik algılamayı içeren birçok makine öğrenimi problemi türü, zaman serisi analizi gerektirir. Örneğin, geçmiş satış verilerine göre kışlık montların gelecekteki satışlarını tahmin etmek için zaman serisi analizini kullanabilirsiniz.

U

gözetimsiz makine öğrenimi

#clustering
#fundamentals

Veri kümesindeki (genellikle etiketlenmemiş bir veri kümesi) kalıpları bulmak için bir model eğitilir.

Gözetimsiz makine öğreniminin en yaygın kullanımı, verileri benzer örneklerden oluşan gruplara kümelemektir. Örneğin, gözetimsiz bir makine öğrenimi algoritması, müziğin çeşitli özelliklerine göre şarkıları gruplandırabilir. Ortaya çıkan kümeler, diğer makine öğrenimi algoritmalarının (ör. müzik önerisi hizmeti) girişi haline gelebilir. Kümeleme, yararlı etiketlerin az olduğu veya olmadığı durumlarda yardımcı olabilir. Örneğin, kötüye kullanım karşıtı ve sahtekarlık gibi alanlarda kümeler, kullanıcıların verileri daha iyi anlamasına yardımcı olabilir.

Gözetimli makine öğrenimi ile zıtlık.