Bu sayfada Kümeleme sözlüğü terimleri bulunuyor. Tüm sözlük terimleri için burayı tıklayın.
A
toplama kümeleme
Hiyerarşi kümeleme bölümüne bakın.
C
centroid
Bir kümenin k-ortalamaları veya k-ortan algoritması tarafından belirlenen merkezi. Örneğin, k 3 ise k ortalama değeri veya k-ortanca algoritması 3 santimetre bulur.
centroid tabanlı kümeleme
Verileri hiyerarşik olmayan kümeler halinde düzenleyen bir kümeleme algoritması kategorisi. K-ortalaması, en yaygın olarak kullanılan merkeze dayalı kümeleme algoritmasıdır.
Hiyerarşik kümeleme algoritmalarıyla kontrast.
kümeleme
İlgili örnekleri, özellikle denetimsiz öğrenme sırasında gruplandırma. Tüm örnekler gruplandırıldığında gerçek kişi, her bir kümenin anlamını belirleyebilir.
Birçok kümeleme algoritması vardır. Örneğin, k-ortalaması algoritması, aşağıdaki şemada olduğu gibi bir centroid yakınlığına göre küme kümeleri oluşturur:
Ardından gerçek bir araştırmacı, kümeleri inceleyebilir ve örneğin, 1. kümeyi "cüce ağaçlar" ve 2. kümeyi "tam boyutlu ağaçlar" olarak etiketleyebilir.
Başka bir örnek olarak, bir örneğin merkezden belirli bir uzaklığına göre kümeleme algoritmasını değerlendirin. Örnek:
D
bölmeli kümeleme
Hiyerarşi kümeleme bölümüne bakın.
H
hiyerarşik kümeleme
Küme ağacı oluşturan bir kümeleme algoritması kategorisi. Hiyerarşik kümeleme, botanik taksonomiler gibi hiyerarşik verilere uygundur. İki tür hiyerarşik kümeleme algoritması vardır:
- Toplama kümeleme ilk olarak her bir örneği kendi kümesine atar ve hiyerarşik bir ağaç oluşturmak için en yakındaki kümeleri tekrar tekrar birleştirir.
- Bölünmüş kümeleme ilk olarak tüm örnekleri bir küme halinde gruplandırır, ardından kümeyi hiyerarşik olarak bir hiyerarşik ağa böler.
Merkezi tabanlı kümelemeyle kontrast.
K
k-ortalama
Gözetimsiz öğrenmede kullanılan örnekleri gruplandıran popüler bir kümeleme algoritmasıdır. K-ortalaması algoritması temel olarak aşağıdakileri yapar:
- En iyi k merkezi noktalarını (centroid olarak bilinir) tekrar tekrar belirler.
- Her örneği en yakın merkeze atar. Aynı merkeze en yakın örnekler aynı gruba aittir.
K-ortalama algoritması, her örnekten en yakın merkeze olan mesafenin kümülatif kare değerini en aza indirmek için merkezi konumları seçer.
Örneğin, aşağıdaki köpek yüksekliği-köpek genişliği grafiğini düşünün:
k=3 ise k-ortalaması algoritması üç merkezi belirler. Her örnek en yakın merkeze atanır ve üç grup elde edilir:
Bir üreticinin, köpekler için küçük, orta ve büyük kazak için ideal bedenleri belirlemek istediğini düşünün. Üç merkez, söz konusu kümedeki her köpeğin ortalama yüksekliğini ve ortalama genişliğini tanımlar. Bu nedenle, muhtemelen kazak boyutlarını bu üç merkeze dayandırmanız gerekir. Bir kümenin santralinin genellikle kümedeki bir örnek olmadığını unutmayın.
Yukarıdaki resimlerde, yalnızca iki özelliğe (yükseklik ve genişlik) sahip örnekler için k ortalama değeri gösterilmektedir. K-ortalamalarının birçok özelliği kapsayan örnekleri gruplandırabileceğini unutmayın.
k-ortanca
K-ortalamalarıyla yakından ilişkili bir kümeleme algoritması. Bu iki uygulamanın arasındaki fark şunlardır:
- K-ortalamasında, centroid'ler bir centroid adayı ile örneklerinin her biri arasındaki mesafenin karelerinin en aza indirilmesiyle belirlenir.
- K-ortanca centroid, bir centroid adayı ile örneklerinin her biri arasındaki mesafenin en aza indirilmesiyle belirlenir.
Mesafe tanımlarının da farklı olduğunu unutmayın:
- k ortalamaları, merkezin bir örneğe olan Öklid mesafesine dayanır. (İki boyutta Öklid mesafesi, hipotenüsü hesaplamak için Pisagor teoremini kullanmak anlamına gelir.) Örneğin, (2,2) ile (5,-2) arasındaki k anlamı şudur:
- k-median, merkezin bir örneğine kadar Manhattan mesafesine dayanır. Bu mesafe, her boyuttaki mutlak deltaların toplamıdır. Örneğin, (2,2) ile (5,-2) arasındaki k-ortanca mesafe şu şekilde olur:
C
benzerlik ölçüsü
Kümeleme algoritmalarında, iki örneğin ne kadar benzer (ne kadar benzer) olduğunu belirlemek için kullanılan metrik.
eskiz
Gözetimsiz makine öğrenimi bölümünde, örneklerde ön benzerlik analizi gerçekleştiren bir algoritma kategorisidir. Çizim algoritmaları, benzer olma ihtimali olan noktaları tanımlamak için bölgeye duyarlı bir karma işlevi kullanır, ardından bunları gruplar halinde gruplandırır.
Çizim, büyük veri kümelerinde benzerlik hesaplamaları için gereken hesaplamayı azaltır. Veri kümesindeki her bir örnek çifti için benzerliği hesaplamak yerine benzerliği yalnızca her paket içindeki her bir nokta çifti için hesaplarız.
T
zaman serisi analizi
Geçici verileri analiz eden bir makine öğrenimi ve istatistik alt alanı. Sınıflandırma, kümeleme, öngörme ve anormallik algılamayı da içeren birçok makine öğrenimi sorunu türü, zaman serisi analizi gerektirir. Örneğin, geçmiş satış verilerine göre gelecekteki montların gelecekteki satışlarını aya göre tahmin etmek için zaman serisi analizini kullanabilirsiniz.
U
gözetimsiz makine öğrenimi
Bir veri kümesindeki (genellikle etiketlenmemiş bir veri kümesi) modelleri bulmak için bir model eğitme.
Gözetimsiz makine öğreniminin en yaygın kullanımı, verileri benzer örneklerden oluşan gruplara kümelemektir. Örneğin, gözetimsiz bir makine öğrenimi algoritması, müziğin çeşitli özelliklerine göre şarkıları gruplandırabilir. Oluşturulan kümeler, diğer makine öğrenimi algoritmalarının (ör. bir müzik öneri hizmeti) girişi olabilir. Kümeleme, yararlı etiketlerin çok az veya hiç olmaması durumunda yararlı olabilir. Örneğin, kötüye kullanım karşıtı ve sahtekarlık gibi alanlarda kümeler, kullanıcıların verileri daha iyi anlamasına yardımcı olabilir.
Gözetimli makine öğreniminin karşıtıdır.