Workflow de clustering

Pour mettre en cluster vos données, procédez comme suit:

  1. Vous allez ensuite préparer les données.
  2. Créer une métrique de similarité
  3. Exécutez un algorithme de clustering.
  4. Interprétez les résultats et ajustez votre clustering.

Cette page présente brièvement la procédure à suivre. Nous détaillerons les sections suivantes.

Les quatre étapes du workflow de clustering

Préparer les données

Comme pour tout problème de ML, vous devez normaliser, faire évoluer et transformer les données de caractéristiques. Toutefois, lors du clustering, vous devez également vous assurer que les données préparées vous permettent de calculer avec précision la similarité entre les exemples. Les sections suivantes abordent ce point.

Créer une métrique de similarité

Avant de pouvoir regrouper des données, un algorithme de clustering a besoin de savoir si des paires d'exemples sont similaires. Vous quantifiez la similarité entre les exemples en créant une métrique de similarité. Pour créer une métrique de similarité, vous devez bien comprendre vos données et apprendre à en tirer des similitudes.

Exécuter l'algorithme de clustering

Un algorithme de clustering utilise la métrique de similarité pour mettre en cluster des données. Ce cours porte sur les k-moyennes.

Interpréter les résultats et ajuster

Vérifier la qualité de votre sortie de clustering est itératif et exploratoire, car le clustering ne dispose pas de la "vérité" capable de vérifier le résultat. Vous comparez le résultat par rapport aux attentes au niveau du cluster et de l'exemple. Pour améliorer le résultat, vous devez effectuer des tests itératifs avec les étapes précédentes afin d'observer leur impact sur le clustering.