Qu'est-ce que le clustering ?

Lorsque vous essayez d'en savoir plus sur un sujet, par exemple la musique, vous pouvez envisager de rechercher des groupes ou des collections pertinents. Vous pouvez organiser la musique par genre, tandis que votre ami peut l'organiser par décennie. La façon dont vous choisissez de regrouper les éléments vous aide à mieux les comprendre en tant qu'éléments musicaux individuels. Vous constaterez peut-être que vous êtes profondément attaché au punk rock, et que vous pouvez décomposer le genre en différentes approches ou musiques de différents pays. Votre ami peut également s'intéresser à la musique des années 1980 et comprendre comment la musique de différents genres à l'époque était influencée par le climat sociopolitique. Dans les deux cas, votre ami et vous avez appris quelque chose d'intéressant sur la musique, même si vous avez adopté différentes approches.

De plus, dans le domaine du machine learning, nous regroupons souvent des exemples pour commencer à comprendre un sujet (ensemble de données). Le regroupement d'exemples sans étiquette s'appelle le clustering.

Comme les exemples ne comportent pas d'étiquette, le clustering repose sur le machine learning non supervisé. Si les exemples sont étiquetés, le clustering devient classification. Pour en savoir plus sur les méthodes supervisées et non supervisées, consultez la page Présentation du problème lié au machine learning.

Graphique affichant trois clusters
Figure 1: Exemples sans étiquette regroupés en trois clusters

Avant de pouvoir regrouper des exemples similaires, vous devez d'abord trouver des exemples similaires. Vous pouvez mesurer la similarité entre les exemples en combinant les données de caractéristiques des exemples dans une métrique, appelée mesure de similarité. Lorsque chaque exemple est défini par une ou deux caractéristiques, il est facile de mesurer la similarité. Par exemple, vous pouvez trouver des livres similaires rédigés par leurs auteurs. À mesure que le nombre de caractéristiques augmente, la création d'une mesure de similarité devient plus complexe. Nous verrons plus tard comment créer une mesure de similarité dans différents scénarios.

Quelles sont les utilisations possibles du clustering ?

Le clustering a une multitude d'utilisations dans divers secteurs. Voici quelques applications courantes de clustering:

  • segmentation du marché
  • analyse des réseaux sociaux
  • regroupement des résultats de recherche
  • imagerie médicale
  • segmentation d'image
  • détection d'anomalies

Après le clustering, un numéro appelé ID de cluster est attribué à chaque cluster. Vous pouvez maintenant condenser l'ensemble des caractéristiques d'un exemple dans son ID de cluster. La représentation d'un exemple complexe par un simple ID de cluster renforce le clustering. Pour aller plus loin, le regroupement des données peut simplifier les ensembles de données volumineux.

Par exemple, vous pouvez regrouper des éléments selon différentes caractéristiques, comme illustré dans les exemples suivants:

Exemples
  • Regrouper les étoiles par luminosité.
  • Regroupez les organismes par informations génétiques dans une taxonomie.
  • Regroupez les documents par thème.

Les systèmes de machine learning peuvent ensuite utiliser des ID de cluster pour simplifier le traitement de grands ensembles de données. Ainsi, le résultat du clustering sert de données de caractéristiques pour les systèmes de ML en aval.

Chez Google, le clustering est utilisé pour la généralisation, la compression des données et la protection de la vie privée dans des produits tels que les vidéos YouTube, les applications Play et les pistes musicales.

Généralisation

Lorsque certains exemples d'un cluster ont des données de caractéristiques manquantes, vous pouvez déduire les données manquantes à partir d'autres exemples du cluster.

Exemple
Les vidéos les moins populaires peuvent être regroupées avec d'autres vidéos plus populaires pour améliorer les recommandations.

Compression des données

Comme indiqué, les données de caractéristiques de tous les exemples d'un cluster peuvent être remplacées par l'ID de cluster approprié. Ce remplacement simplifie les données de caractéristiques et permet d'économiser de l'espace de stockage. Ces avantages deviennent significatifs lorsqu'ils sont adaptés à des ensembles de données volumineux. De plus, les systèmes de machine learning peuvent utiliser l'ID de cluster comme entrée plutôt que l'intégralité de l'ensemble de données des caractéristiques. La réduction de la complexité des données d'entrée simplifie et accélère l'entraînement du modèle de ML.

Exemple
Les données relatives aux fonctionnalités d'une vidéo YouTube peuvent inclure les éléments suivants :
  • Données sur le lieu, l'heure et les données démographiques des spectateurs
  • Données de commentaires avec codes temporels, texte et ID utilisateur
  • tags vidéo
Le clustering de vidéos YouTube vous permet de remplacer cet ensemble de fonctionnalités par un seul ID de cluster, et ainsi de compresser vos données.

Protection de la vie privée

Vous pouvez préserver la confidentialité des données en regroupant les utilisateurs et en associant les données utilisateur à des ID de cluster plutôt qu'à des utilisateurs spécifiques. Pour que vous ne puissiez pas associer les données utilisateur à un utilisateur spécifique, le cluster doit regrouper un nombre suffisant d'utilisateurs.

Exemple
Imaginons que vous souhaitiez ajouter l'historique vidéo des utilisateurs YouTube à votre modèle. Au lieu de vous appuyer sur l'ID utilisateur, vous pouvez mettre en cluster des utilisateurs et vous appuyer sur l'ID du cluster. Désormais, votre modèle ne peut pas associer l'historique vidéo à un utilisateur spécifique, mais uniquement à un ID de cluster représentant un grand groupe d'utilisateurs.