Glossaire du machine learning: Clustering

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Cette page contient des termes de glossaire en cluster. Pour consulter tous les termes du glossaire, cliquez ici.

A

clustering agglomératif

#clustering

Voir clustering hiérarchique.

C

centroid

#clustering

Centre d'un cluster, déterminé par un algorithme k-moyennes ou k-médiane. Par exemple, si k est égal à 3, l'algorithme k-moyennes ou k-médiane trouve 3 centroïdes.

clustering basé sur centroïde

#clustering

Catégorie d'algorithmes de clustering qui organise les données en clusters non hiérarchiques. k-moyennes est l'algorithme de clustering basé sur centroïde le plus utilisé.

À comparer aux algorithmes de clustering hiérarchique.

clustering

#clustering

Regroupement des exemples associés, en particulier lors de l'apprentissage non supervisé Une fois tous les exemples regroupés, un humain peut éventuellement donner du sens à chaque cluster.

Il existe de nombreux algorithmes de clustering. Par exemple, l'algorithme k-moyennes regroupe les exemples en fonction de leur proximité avec un centroïde, comme dans le schéma suivant:

Graphique bidimensionnel dans lequel l'axe des abscisses est intitulé "&width=treize" largeur de l'arbre, et l'axe des ordonnées = 'tree height '.  Le graphique contient deux centroïdes et plusieurs dizaines de points de données. Les points de données sont classés en fonction de leur proximité. Autrement dit, les points de données les plus proches d'un centroïde sont classés dans la catégorie "cluster 1", tandis que ceux les plus proches du centroïde sont classés dans la catégorie "cluster 2".

Un chercheur peut alors examiner les clusters et, par exemple, nommer le cluster 1 en tant qu'"arbres nains" et le cluster 2 en tant qu'arbres à taille réelle.

Prenons l'exemple d'un algorithme de clustering basé sur la distance d'un exemple par rapport à un point central, comme illustré ci-dessous:

Des dizaines de points de données sont organisés en cercles concentriques, comme des trous au centre d'un jeu de fléchettes. L'anneau le plus intérieur des points de données est classé dans la catégorie "cluster 1", l'anneau central est classé dans la catégorie "cluster 2", et l'anneau extérieur la catégorie "cluster 3".

D

clustering divisif

#clustering

Voir clustering hiérarchique.

H

clustering hiérarchique

#clustering

Catégorie d'algorithmes de clustering qui créent une arborescence de clusters. Le clustering hiérarchique est particulièrement adapté aux données hiérarchiques, telles que les taxonomies botaniques. Il existe deux types d'algorithmes de clustering hiérarchique:

  • Le clustering agglomératif attribue d'abord chaque exemple à son propre cluster, puis fusionne de manière itérative les clusters les plus proches pour créer une arborescence hiérarchique.
  • Le clustering divisif regroupe d'abord tous les exemples en un cluster, puis le divise de manière itérative en un arbre hiérarchique.

À comparer au clustering basé sur centroïde.

K

k-moyennes

#clustering

Algorithme de clustering populaire qui regroupe des exemples dans l'apprentissage non supervisé. L'algorithme k-moyennes effectue les opérations suivantes:

  • Détermine de manière itérative les meilleurs k points centraux (appelés centroïdes).
  • Attribue chaque exemple au centroïde le plus proche. Les exemples les plus proches du même centroïde appartiennent au même groupe.

L'algorithme k-moyennes choisit les emplacements des centroïdes afin de minimiser le carré cumulé des distances de chaque exemple par rapport au centroïde le plus proche.

Prenons l'exemple du graphique suivant, qui représente la hauteur et la largeur des chiens:

Un graphique cartésien avec plusieurs dizaines de points de données.

Si k=3, l'algorithme k-moyennes détermine trois centroïdes. Chaque exemple est attribué au centroïde le plus proche, ce qui génère trois groupes:

Le même graphique cartésien que dans l'illustration précédente, à l'exception de trois centroïdes ajoutés.
          Les points de données précédents sont regroupés en trois groupes distincts, chaque groupe représentant les points de données les plus proches d'un centroïde spécifique.

Imaginez qu'un fabricant souhaite déterminer les tailles idéales pour les pulls de petite, moyenne et grande taille pour chiens. Les trois centroïdes identifient la hauteur moyenne et la largeur moyenne de chaque chien de ce cluster. Par conséquent, le fabricant devrait probablement baser les tailles de pull sur ces trois centroïdes. Notez que le centroïde d'un cluster n'est généralement pas un exemple du cluster.

Les illustrations précédentes montrent des k-moyennes pour des exemples avec seulement deux caractéristiques (hauteur et largeur). Notez que les k-moyennes peuvent regrouper des exemples pour de nombreuses caractéristiques.

k-médiane

#clustering

Algorithme de clustering étroitement lié à k-moyennes. La différence pratique entre les deux est la suivante:

  • En k-moyennes, les centroïdes sont déterminés en minimisant la somme des carrés de la distance entre un centroïde potentiel et chacun de ses exemples.
  • Dans l'algorithme k-médiane, les centroïdes sont déterminés en minimisant la somme de la distance entre un centroïde potentiel et chacun de ses exemples.

Notez que les définitions de la distance sont également différentes:

  • La technique k-moyennes repose sur la distance euclidienne entre le centroïde et un exemple. (Dans deux dimensions, la distance euclidienne revient à utiliser le théorème de Pythagore pour calculer l'hypoténuse.) Par exemple, la distance k-moyennes entre (2,2) et (5,-2) est:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • Dans l'algorithme k-médiane, la notion de distance utilisée est la distance de Manhattan entre le centroïde et un exemple. Cette distance correspond à la somme des deltas absolus dans chaque dimension. Par exemple, la distance k-médiane entre (2,2) et (5,-2) est:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

mesure de similarité

#clustering

Dans les algorithmes de clustering, la métrique permettant de déterminer le degré de similitude entre deux exemples.

croquis

#clustering

Dans le machine learning non supervisé, une catégorie d'algorithmes qui effectuent une analyse de similarité préliminaire sur les exemples. Les algorithmes de croquis utilisent une fonction de hachage sensible à la localité pour identifier les points susceptibles d'être similaires, puis les regroupent dans des buckets.

Les esquisses diminuent les calculs requis pour les calculs de similarité sur les ensembles de données volumineux. Au lieu de calculer la similarité pour chaque paire d'exemples dans l'ensemble de données, nous ne calculons la similarité que pour chaque paire de points dans chaque bucket.

T

analyse de séries temporelles

#clustering

Sous-domaine du machine learning et des statistiques qui analyse les données temporelles. De nombreux types de problèmes de machine learning nécessitent une analyse de séries temporelles, y compris la classification, le clustering, la prévision et la détection d'anomalies. Par exemple, vous pouvez utiliser l'analyse de séries temporelles pour prévoir les futures ventes de manteaux d'hiver par mois en fonction des données de l'historique des ventes.

U

machine learning non supervisé

#clustering

Entraînement d'un modèle pour détecter des modèles dans un ensemble de données, généralement sans étiquette.

L'utilisation la plus courante du machine learning non supervisé consiste à regrouper les données dans des groupes d'exemples similaires. Par exemple, un algorithme de machine learning non supervisé peut regrouper des titres selon différentes propriétés de la musique. Les clusters obtenus peuvent devenir une entrée pour d'autres algorithmes de machine learning (par exemple, à un service de recommandation de musique). Le clustering peut être utile dans les domaines où les vrais libellés sont difficiles à obtenir. Par exemple, dans des domaines tels que la lutte contre les abus et la fraude, les clusters peuvent aider les humains à mieux comprendre les données.

Un autre exemple de machine learning non supervisé est l'analyse en composantes principales (PCA). Par exemple, l'application de l'ACP sur un ensemble de données contenant le contenu de millions de paniers d'achat peut révéler que ceux qui contiennent des citrons contiennent également fréquemment des antiacides.

À comparer au machine learning supervisé.