Glossario del machine learning: clustering

Questa pagina contiene i termini del glossario di Clustering. Per tutti i termini del glossario, fai clic qui.

A

clustering agglomerativo

#clustering

Vedi Clustering gerarchico.

C

centroide

#clustering

Il centro di un cluster, determinato da un algoritmo k-means o k-median. Ad esempio, se k è 3, l'algoritmo k-mean o k-mediana trova 3 centroidi.

Clustering basato su centroide

#clustering

Una categoria di algoritmi di clustering che organizza i dati in cluster non gerarchici. k-means è l'algoritmo di clustering più utilizzato a livello di centroide.

Contrasto con gli algoritmi di clustering gerarchico.

clustering

#clustering

Raggruppamento di esempi correlati, soprattutto durante l'apprendimento non supervisionato. Una volta che tutti gli esempi sono stati raggruppati, un essere umano può facoltativamente fornire un significato a ciascun cluster.

Esistono molti algoritmi di clustering. Ad esempio, l'algoritmo k-means raggruppa gli esempi in base alla vicinanza a un centroid, come nel seguente diagramma:

Un grafico bidimensionale in cui l'asse X è etichettato come "Larghezza albero" e l'asse Y è etichettato "Altezza albero". Il grafico contiene due centroidi e decine di punti dati. I punti dati sono
          classificati in base alla loro vicinanza. In altre parole, i punti dati più vicini a un centroide vengono classificati come "cluster 1", mentre quelli più vicini all'altro centroide sono classificati come "cluster 2".

Un ricercatore potrebbe poi esaminare i cluster e, ad esempio, etichettare il cluster 1 come "albero nano" e il cluster 2 come "alberi a grandezza naturale".

Come altro esempio, considera un algoritmo di clustering basato sulla distanza di un esempio da un punto centrale, illustrato come segue:

Decine di punti dati sono disposti in cerchi concentrici, quasi come fori intorno al centro di un bersaglio. L'anello interno dei punti dati è classificato come "cluster 1", l'anello centrale è classificato come "cluster 2" e l'anello più esterno come "cluster 3".

D

clustering divisivo

#clustering

Vedi Clustering gerarchico.

H

clustering gerarchico

#clustering

Una categoria di algoritmi di clustering che creano una struttura ad albero di cluster. Il clustering gerarchico è adatto a dati gerarchici, come le tassonomie botaniche. Esistono due tipi di algoritmi di clustering gerarchici:

  • Il cluster di agglomerazione assegna prima ogni esempio al proprio cluster e unisce in modo iterativo i cluster più vicini per creare un albero gerarchico.
  • Il cluster divisivi raggruppa prima tutti gli esempi in un cluster, quindi suddivide in modo iterativo il cluster in un albero gerarchico.

Contrasto con il clustering basato su centroide.

K

media k

#clustering

Un noto algoritmo di clustering che raggruppa gli esempi nell'apprendimento non supervisionato. L'algoritmo k-means consiste sostanzialmente in:

  • Determina in modo iterativo i migliori punti centrali k (noti come centroid).
  • Assegna ogni esempio al centroide più vicino. Gli esempi più vicini lo stesso centroide appartengono allo stesso gruppo.

L'algoritmo k-means sceglie le posizioni del centroide per ridurre al minimo il quadrato cumulativo delle distanze da ogni esempio al suo centroide più vicino.

Ad esempio, considera il seguente grafico dell'altezza del cane per la larghezza del cane:

Un grafico cartesiano con diverse dozzine di punti dati.

Se k=3, l'algoritmo k-means determina tre centroidi. Ogni esempio viene assegnato al suo centroide più vicino, per tre gruppi:

Lo stesso grafico cartesiano dell'illustrazione precedente, eccetto
          con l'aggiunta di tre centroidi.
          I punti dati precedenti sono raggruppati in tre gruppi distinti e ciascun gruppo rappresenta i punti dati più vicini a un particolare centroide.

Immagina che un produttore voglia determinare le taglie ideali per maglioni di taglia piccola, media e grande per i cani. I tre centroidi identificano l'altezza media e la larghezza media di ciascun cane nel cluster. Quindi, probabilmente il produttore deve basare le taglie del maglione su questi tre centroidi. Tieni presente che il centroide di un cluster in genere non è un esempio nel cluster.

Le illustrazioni precedenti mostrano k-mean per gli esempi con solo due caratteristiche (altezza e larghezza). Nota: i media k possono raggruppare gli esempi in molte funzionalità.

mediana in k

#clustering

Un algoritmo di clustering strettamente correlato a k-means. La differenza pratica tra i due è la seguente:

  • In k-mezzi, i centroidi sono determinati minimizzando la somma delle quadrate della distanza tra un candidato centroide e ciascuno dei suoi esempi.
  • In media k, i centroidi sono determinati riducendo al minimo la somma della distanza tra un candidato centroide e ciascuno dei suoi esempi.

Anche le definizioni della distanza sono diverse:

  • k-means si basa sulla distanza euclidea dal centroide a un esempio. (In due dimensioni, la distanza euclidea significa usare il teorema di Pitagora per calcolare l'ipotenusa.) Ad esempio, la distanza k-media tra (2,2) e (5,-2) sarebbe:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • La mediana k si basa sulla distanza di Manhattan dal centroide a un esempio. Questa distanza è la somma dei delta assoluti in ogni dimensione. Ad esempio, la distanza mediana k tra (2,2) e (5,-2) sarebbe:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

D

misura di somiglianza

#clustering

Negli algoritmi di clustering, la metrica utilizzata per determinare quanto sono simili (quanto simili sono) due esempi.

schizzi

#clustering

Nel machine learning non supervisionato, una categoria di algoritmi che eseguono un'analisi preliminare della similitudine sugli esempi. Gli algoritmi di schizzo utilizzano una funzione hash sensibile alla località per identificare i punti simili, quindi li raggruppano in bucket.

Lo schizzo riduce il calcolo necessario per i calcoli di somiglianza su set di dati di grandi dimensioni. Anziché calcolare la somiglianza per ogni singola coppia di esempi nel set di dati, calcoliamo la somiglianza solo per ogni coppia di punti all'interno di ciascun bucket.

M

analisi delle serie temporali

#clustering

Un sottocampo del machine learning e delle statistiche che analizza i dati temporali. Molti tipi di problemi di machine learning richiedono l'analisi delle serie temporali, tra cui classificazione, clustering, previsioni e rilevamento di anomalie. Ad esempio, potresti utilizzare l'analisi delle serie temporali per prevedere le vendite future di cappotti invernali per mese in base ai dati di vendita storici.

U

machine learning non supervisionato

#clustering
#fundamentals

Addestramento di un modello per trovare pattern in un set di dati, in genere un set di dati senza etichetta.

L'uso più comune del machine learning non supervisionato è l'esecuzione del cluster in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato può raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare un input per altri algoritmi di machine learning (ad esempio per un servizio di consigli musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini come quelli relativi ad anti-abuso e attività fraudolenta, i cluster possono aiutare gli esseri umani a comprendere meglio i dati.

Contrasto con il machine learning supervisionato.