Bu sayfada Kümeleme sözlüğü terimleri bulunuyor. Tüm sözlük terimleri için burayı tıklayın.
A
toplama kümeleme
Hiyerarşik kümeleme konusuna bakın.
C
centroid
Küme, k-ortalaması veya k-ortan algoritması tarafından belirlenen merkezidir. Örneğin, k 3 ise k ortalamaları veya k-ortanca algoritması 3 santimetre bulur.
centroid tabanlı kümeleme
Verileri hiyerarşik olmayan kümeler halinde düzenleyen kümeleme algoritmaları kategorisi. K-ortalama, en yaygın olarak kullanılan merkezli kümeleme algoritmasıdır.
Hiyerarşik kümeleme algoritmalarıyla kontrast oluşturur.
kümeleme
İlgili örnekleri, özellikle gözetimsiz öğrenme sırasında gruplandırma. Tüm örnekler gruplandıktan sonra insan, her bir kümeye isteğe bağlı olarak anlama sağlayabilir.
Birçok kümeleme algoritması vardır. Örneğin, k-ortalama algoritma, aşağıdaki şemada olduğu gibi bir merkezli yakınlığa göre küme örnekleri gösterir:
Gerçek kişi olan araştırmacı, kümeleri inceleyebilir ve örneğin, 1. kümeyi "cüce ağaçları" ve 2. kümeyi "tam boyutlu ağaçlar" olarak etiketleyebilir.
Başka bir örnek vermek gerekirse, aşağıda gösterilen şekilde bir örneğin merkezden uzaklığını temel alan bir kümeleme algoritmasını inceleyelim:
G
ayrı kümeleme
Hiyerarşik kümeleme konusuna bakın.
H
hiyerarşik kümeleme
Küme ağacı oluşturan kümeleme algoritmaları kategorisi. Hiyerarşik kümeleme, botanik sınıflandırmalar gibi hiyerarşik verilere uygundur. İki tür hiyerarşik kümeleme algoritması vardır:
- Toplama kümeleme her örneği kendi kümesine atar ve hiyerarşik bir ağaç oluşturmak için en yakın kümeleri tekrar tekrar birleştirir.
- Bölme kümeleme, ilk olarak tüm örnekleri tek bir kümede gruplandırır ve daha sonra kümeyi hiyerarşik bir ağaça böler.
Merkezi tabanlı kümeleme ile kontrast oluşturur.
K
k ortalama
Gözetimsiz öğrenmede örnekleri gruplandıran popüler bir kümeleme algoritması. K-ortalama algoritması temel olarak aşağıdakileri yapar:
- En iyi k merkezi noktalarını (merkezler olarak bilinir) tekrar tekrar belirler.
- Her bir örneği en yakın merkeze atar. Aynı merkeze en yakın örnekler aynı gruba aittir.
K-ortalama algoritması, her bir örnekten en yakın merkeze olan mesafenin kümülatif kare değerini en aza indirmek için merkezi konumları seçer.
Örneğin, köpek boyundan köpek genişliğine uzanan aşağıdaki grafiği göz önünde bulundurun:
K=3 olduğunda k-ortalaması algoritması üç santimetre belirler. Her örnek en yakın merkeze atanır ve üç grup oluşturulur:
Bir üreticinin köpekler için küçük, orta ve büyük kazaklar için ideal bedenleri belirlemek istediğini varsayalım. Üç merkezi öğe, bu kümedeki her bir köpeğin ortalama yüksekliği ve ortalama genişliğini tanımlar. Bu nedenle üretici, kazak boyutlarını bu üç merkeze dayandırmalıdır. Bir kümenin merkezi türünün genellikle kümedeki bir örnek olmadığını unutmayın.
Yukarıdaki resimlerde, yalnızca iki özelliği (yükseklik ve genişlik) olan örnekler için k ortalamalarını gösterilmektedir. K-ortalamalarının örnekleri birçok özellik altında gruplandırabileceğini unutmayın.
k-ortanca
K-ortalamaları ile yakından alakalı bir kümeleme algoritması. İkisi arasındaki pratik fark şudur:
- K-ortalamasında, centroidler bir centroid adayı ile örneklerinin arasındaki mesafenin karelerinin en aza indirgenmesiyle belirlenir.
- K-ortancasında, centroidler bir centroid adayı ile örneklerinin her biri arasındaki mesafenin en aza indirilmesiyle belirlenir.
Mesafe tanımlarının da farklı olduğunu unutmayın:
- k ortalamaları, merkezin bir örneğe olan Öklid mesafesine dayanır. (İki boyut olarak Öklid mesafesi, hipotenüsü hesaplamak için Pisagor teoremini kullanmak anlamına gelir.) Örneğin, k (ortalama) (2,2) ile (5,-2) arasındaki mesafe aşağıdaki gibi olur:
- k-median, merkezden bir örneğe Manhattan mesafesine dayanır. Bu mesafe, her bir boyuttaki mutlak deltaların toplamıdır. Örneğin, (2,2) ile (5,-2) arasındaki k-ortanca mesafe şu şekildedir:
C
benzerlik ölçüsü
Kümeleme algoritmalarında, iki örneğin ne kadar benzer (ne kadar benzer) olduğunu belirlemek için kullanılan metrik.
eskiz
Gözetimsiz makine öğrenimi'nde, örnekler üzerinde ön benzerlik analizi gerçekleştiren bir algoritma kategorisidir. Çizim algoritmaları, benzer olabilecek noktaları tanımlamak için bölgeye duyarlı bir karma işlevi kullanarak bunları gruplara ayırır.
Skeç, büyük veri kümelerinde benzerlik hesaplamaları için gereken hesaplamayı azaltır. Veri kümesindeki her bir örnek çifti için benzerliği hesaplamak yerine, her bir paketteki her bir nokta çifti için benzerliği hesaplarız.
T
zaman serisi analizi
Geçici verileri analiz eden makine öğreniminin ve istatistiklerin alt alanı. Sınıflandırma, kümeleme, öngörme ve anormallik algılamayı içeren birçok makine öğrenimi problemi türü, zaman serisi analizi gerektirir. Örneğin, geçmiş satış verilerine göre kışlık montların gelecekteki satışlarını tahmin etmek için zaman serisi analizini kullanabilirsiniz.
U
gözetimsiz makine öğrenimi
Veri kümesindeki (genellikle etiketlenmemiş bir veri kümesi) kalıpları bulmak için bir model eğitilir.
Gözetimsiz makine öğreniminin en yaygın kullanımı, verileri benzer örneklerden oluşan gruplara kümelemektir. Örneğin, gözetimsiz bir makine öğrenimi algoritması, müziğin çeşitli özelliklerine göre şarkıları gruplandırabilir. Ortaya çıkan kümeler, diğer makine öğrenimi algoritmalarının (ör. müzik önerisi hizmeti) girişi haline gelebilir. Kümeleme, yararlı etiketlerin az olduğu veya olmadığı durumlarda yardımcı olabilir. Örneğin, kötüye kullanım karşıtı ve sahtekarlık gibi alanlarda kümeler, kullanıcıların verileri daha iyi anlamasına yardımcı olabilir.
Gözetimli makine öğrenimi ile zıtlık.