Clustering-Workflow

So gruppieren Sie Ihre Daten:

  1. Daten vorbereiten.
  2. Ähnlichkeitsmesswert erstellen.
  3. Clustering-Algorithmus ausführen
  4. Ergebnisse interpretieren und Clustering anpassen.

Auf dieser Seite werden die Schritte kurz beschrieben. In den folgenden Abschnitten gehen wir näher darauf ein.

Die vier Schritte des Clustering-Workflows

Daten vorbereiten

Wie bei jedem ML-Problem müssen Sie Featuredaten normalisieren, skalieren und umwandeln. Beim Clustering müssen Sie außerdem darauf achten, dass die vorbereiteten Daten die Ähnlichkeit zwischen den Beispielen genau berechnen können. In den nächsten Abschnitten wird diese Überlegungen behandelt.

Ähnlichkeitsmesswert erstellen

Bevor ein Clustering-Algorithmus Daten gruppieren kann, muss er wissen, wie ähnliche Paare von Beispielen sind. Sie können die Ähnlichkeit zwischen Beispielen quantifizieren, indem Sie einen Ähnlichkeitsmesswert erstellen. Wenn Sie einen Ähnlichkeitsmesswert erstellen, müssen Sie Ihre Daten sorgfältig analysieren und Ähnlichkeiten aus Ihren Features ableiten.

Clustering-Algorithmus ausführen

Ein Clustering-Algorithmus verwendet den Messwert für die Ähnlichkeit zum Clustering von Daten. In diesem Kurs behandeln wir k-Means.

Ergebnisse interpretieren und anpassen

Die Prüfung der Qualität Ihrer Clustering-Ausgabe ist iterativ und explorativ, da Clustering keine „Wahrheit“ hat, die die Ausgabe prüfen kann. Sie prüfen das Ergebnis anhand der Erwartungen auf Cluster- und Beispielebene. Um das Ergebnis zu verbessern, müssen Sie die vorherigen Schritte iterativ testen, um herauszufinden, wie sie sich auf das Clustering auswirken.