Was ist Clustering?

Wenn Sie mehr über etwas erfahren möchten, z. B. Musik, könnten Sie nach sinnvollen Gruppen oder Sammlungen suchen. Du kannst die Musik nach Genre organisieren, während dein Freund Musik nach Jahrzehnten organisieren kann. Durch die Gruppierung von Elementen erfährst du mehr über sie als einzelne Musikstücke. Es kann vorkommen, dass Sie eine enge Bindung zu Punkrock haben und das Genre weiter in unterschiedliche Herangehensweisen oder Musik von verschiedenen Orten aufschlüsseln. Andererseits könnte Ihr Freund Musik aus den 1980er-Jahren ansehen und herausfinden, wie die damalige Musik in verschiedenen Genres durch das soziopolitische Klima beeinflusst wurde. In beiden Fällen haben Sie und Ihr Freund etwas Interessantes über Musik gelernt, obwohl Sie verschiedene Ansätze verfolgt haben.

Auch beim maschinellen Lernen werden häufig zuerst Beispiele gruppiert, um ein Thema (Dataset) in einem System für maschinelles Lernen zu verstehen. Das Gruppieren von Beispielen ohne Label wird als Clustering bezeichnet.

Da die Beispiele nicht gekennzeichnet sind, basiert das Clustering auf unbeaufsichtigtem maschinellem Lernen. Wenn die Beispiele beschriftet sind, wird das Clustering zur Klassifizierung. Ausführlichere Informationen zu überwachten und unbeaufsichtigten Methoden finden Sie unter Einführung in Framing von Machine Learning.

Grafik mit drei Clustern
Abbildung 1: Beispiele ohne Labels, gruppiert in drei Cluster

Bevor Sie ähnliche Beispiele gruppieren können, müssen Sie zuerst ähnliche suchen. Sie können die Ähnlichkeit zwischen Beispielen messen. Dazu kombinieren Sie die Featuredaten der Beispiele zu einem Messwert, auch Ähnlichkeitsmesswert genannt. Wenn jedes Beispiel durch ein oder zwei Merkmale definiert ist, kann die Ähnlichkeit leicht gemessen werden. So können Sie beispielsweise ähnliche Bücher von ihren Autoren finden. Wenn die Anzahl der Merkmale steigt, wird die Erstellung einer Ähnlichkeitsmessung immer komplexer. Wir sehen uns später an, wie eine Ähnlichkeitsmessung in verschiedenen Szenarien erstellt wird.

Wofür werden Clustering eingesetzt?

Clustering wird in einer Vielzahl von Branchen unterschiedlich eingesetzt. Hier sind einige gängige Anwendungen für das Clustering:

  • Marktsegmentierung
  • Analyse sozialer Netzwerke
  • Gruppierung von Suchergebnissen
  • medizinische Bildgebung
  • Bildsegmentierung
  • Anomalieerkennung

Nach dem Clustering wird jedem Cluster eine Zahl zugewiesen, die als Cluster-ID bezeichnet wird. Jetzt können Sie den gesamten Featuresatz für ein Beispiel in seiner Cluster-ID zusammenfassen. Wenn Sie ein komplexes Beispiel durch eine einfache Cluster-ID darstellen, ist das Clustering leistungsfähig. Das Gruppieren von Daten kann große Datasets vereinfachen.

Sie können Elemente beispielsweise nach verschiedenen Funktionen gruppieren, wie in den folgenden Beispielen gezeigt:

Beispiele
  • Gruppieren Sie die Sterne nach Helligkeit.
  • Organismen anhand von genetischen Informationen in einer Taxonomie zusammenfassen
  • Dokumente nach Themen gruppieren.

Machine Learning-Systeme können dann Cluster-IDs verwenden, um die Verarbeitung großer Datasets zu vereinfachen. Somit dient die Ausgabe des Clusters als Feature-Daten für nachgelagerte ML-Systeme.

Bei Google wird das Clustering für die Generalisierung, die Datenkomprimierung und den Datenschutz in Produkten wie YouTube-Videos, Play-Apps und Musik-Tracks verwendet.

Generalisierung

Wenn in einigen Beispielen in einem Cluster Featuredaten fehlen, können Sie die fehlenden Daten aus anderen Beispielen im Cluster ableiten.

Beispiel
Weniger beliebte Videos können mit beliebten Videos gruppiert werden, um die Videoempfehlungen zu verbessern.

Datenkomprimierung

Wie besprochen, können Featuredaten für alle Beispiele in einem Cluster durch die entsprechende Cluster-ID ersetzt werden. Diese Ersetzung vereinfacht die Featuredaten und spart Speicherplatz. Diese Vorteile ergeben sich erheblich, wenn sie auf große Datensätze skaliert werden. Außerdem können Systeme für maschinelles Lernen die Cluster-ID als Eingabe anstelle des gesamten Feature-Datasets verwenden. Durch die Reduzierung der Komplexität der Eingabedaten wird das ML-Modell einfacher und schneller trainiert.

Beispiel
Feature-Daten für ein einzelnes YouTube-Video können Folgendes enthalten:
  • Zuschauerdaten zu Standort, Zeit und demografischen Merkmalen
  • Kommentardaten mit Zeitstempeln, Text und Nutzer-IDs
  • Video-Tags
Durch das Gruppieren von YouTube-Videos kannst du diese Funktionen durch eine einzige Cluster-ID ersetzen und dadurch deine Daten komprimieren.

Datenschutz

Sie können den Datenschutz wahren, indem Sie Nutzer gruppieren und Nutzerdaten mit Cluster-IDs statt mit bestimmten Nutzern verknüpfen. Damit Sie die Nutzerdaten nicht mit einem bestimmten Nutzer verknüpfen können, muss der Cluster eine ausreichende Anzahl von Nutzern gruppieren.

Beispiel
Angenommen, Sie möchten Ihrem Modell den Videoverlauf für YouTube-Nutzer hinzufügen. Anstatt sich auf die User-ID zu verlassen, können Sie auch Nutzer gruppieren und sich stattdessen auf die Cluster-ID verlassen. Nun kann Ihr Modell den Videoverlauf nicht mit einem bestimmten Nutzer verknüpfen, sondern nur mit einer Cluster-ID, die eine große Gruppe von Nutzern darstellt.