Questa pagina contiene i termini del glossario di Clustering. Per tutti i termini del glossario, fai clic qui.
A
clustering agglomerativo
Vedi Clustering gerarchico.
C
centroide
Il centro di un cluster, determinato da un algoritmo k-means o k-median. Ad esempio, se k è 3, l'algoritmo k-mean o k-mediana trova 3 centroidi.
Clustering basato su centroide
Una categoria di algoritmi di clustering che organizza i dati in cluster non gerarchici. k-means è l'algoritmo di clustering più utilizzato a livello di centroide.
Contrasto con gli algoritmi di clustering gerarchico.
clustering
Raggruppamento di esempi correlati, soprattutto durante l'apprendimento non supervisionato. Una volta che tutti gli esempi sono stati raggruppati, un essere umano può facoltativamente fornire un significato a ciascun cluster.
Esistono molti algoritmi di clustering. Ad esempio, l'algoritmo k-means raggruppa gli esempi in base alla vicinanza a un centroid, come nel seguente diagramma:
Un ricercatore potrebbe poi esaminare i cluster e, ad esempio, etichettare il cluster 1 come "albero nano" e il cluster 2 come "alberi a grandezza naturale".
Come altro esempio, considera un algoritmo di clustering basato sulla distanza di un esempio da un punto centrale, illustrato come segue:
D
clustering divisivo
Vedi Clustering gerarchico.
H
clustering gerarchico
Una categoria di algoritmi di clustering che creano una struttura ad albero di cluster. Il clustering gerarchico è adatto a dati gerarchici, come le tassonomie botaniche. Esistono due tipi di algoritmi di clustering gerarchici:
- Il cluster di agglomerazione assegna prima ogni esempio al proprio cluster e unisce in modo iterativo i cluster più vicini per creare un albero gerarchico.
- Il cluster divisivi raggruppa prima tutti gli esempi in un cluster, quindi suddivide in modo iterativo il cluster in un albero gerarchico.
Contrasto con il clustering basato su centroide.
K
media k
Un noto algoritmo di clustering che raggruppa gli esempi nell'apprendimento non supervisionato. L'algoritmo k-means consiste sostanzialmente in:
- Determina in modo iterativo i migliori punti centrali k (noti come centroid).
- Assegna ogni esempio al centroide più vicino. Gli esempi più vicini lo stesso centroide appartengono allo stesso gruppo.
L'algoritmo k-means sceglie le posizioni del centroide per ridurre al minimo il quadrato cumulativo delle distanze da ogni esempio al suo centroide più vicino.
Ad esempio, considera il seguente grafico dell'altezza del cane per la larghezza del cane:
Se k=3, l'algoritmo k-means determina tre centroidi. Ogni esempio viene assegnato al suo centroide più vicino, per tre gruppi:
Immagina che un produttore voglia determinare le taglie ideali per maglioni di taglia piccola, media e grande per i cani. I tre centroidi identificano l'altezza media e la larghezza media di ciascun cane nel cluster. Quindi, probabilmente il produttore deve basare le taglie del maglione su questi tre centroidi. Tieni presente che il centroide di un cluster in genere non è un esempio nel cluster.
Le illustrazioni precedenti mostrano k-mean per gli esempi con solo due caratteristiche (altezza e larghezza). Nota: i media k possono raggruppare gli esempi in molte funzionalità.
mediana in k
Un algoritmo di clustering strettamente correlato a k-means. La differenza pratica tra i due è la seguente:
- In k-mezzi, i centroidi sono determinati minimizzando la somma delle quadrate della distanza tra un candidato centroide e ciascuno dei suoi esempi.
- In media k, i centroidi sono determinati riducendo al minimo la somma della distanza tra un candidato centroide e ciascuno dei suoi esempi.
Anche le definizioni della distanza sono diverse:
- k-means si basa sulla distanza euclidea dal centroide a un esempio. (In due dimensioni, la distanza euclidea significa usare il teorema di Pitagora per calcolare l'ipotenusa.) Ad esempio, la distanza k-media tra (2,2) e (5,-2) sarebbe:
- La mediana k si basa sulla distanza di Manhattan dal centroide a un esempio. Questa distanza è la somma dei delta assoluti in ogni dimensione. Ad esempio, la distanza mediana k tra (2,2) e (5,-2) sarebbe:
D
misura di somiglianza
Negli algoritmi di clustering, la metrica utilizzata per determinare quanto sono simili (quanto simili sono) due esempi.
schizzi
Nel machine learning non supervisionato, una categoria di algoritmi che eseguono un'analisi preliminare della similitudine sugli esempi. Gli algoritmi di schizzo utilizzano una funzione hash sensibile alla località per identificare i punti simili, quindi li raggruppano in bucket.
Lo schizzo riduce il calcolo necessario per i calcoli di somiglianza su set di dati di grandi dimensioni. Anziché calcolare la somiglianza per ogni singola coppia di esempi nel set di dati, calcoliamo la somiglianza solo per ogni coppia di punti all'interno di ciascun bucket.
M
analisi delle serie temporali
Un sottocampo del machine learning e delle statistiche che analizza i dati temporali. Molti tipi di problemi di machine learning richiedono l'analisi delle serie temporali, tra cui classificazione, clustering, previsioni e rilevamento di anomalie. Ad esempio, potresti utilizzare l'analisi delle serie temporali per prevedere le vendite future di cappotti invernali per mese in base ai dati di vendita storici.
U
machine learning non supervisionato
Addestramento di un modello per trovare pattern in un set di dati, in genere un set di dati senza etichetta.
L'uso più comune del machine learning non supervisionato è l'esecuzione del cluster in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato può raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare un input per altri algoritmi di machine learning (ad esempio per un servizio di consigli musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini come quelli relativi ad anti-abuso e attività fraudolenta, i cluster possono aiutare gli esseri umani a comprendere meglio i dati.
Contrasto con il machine learning supervisionato.