Ergebnisse interpretieren und Clustering anpassen

Da das Clustering nicht überwacht wird, ist keine „Wahrheit“ verfügbar, um Ergebnisse zu überprüfen. Die fehlende Bewertung der Qualität erschwert die Qualitätsbewertung. Darüber hinaus fallen reale Datasets in der Regel nicht in offensichtliche Cluster von Beispielen wie dem in Abbildung 1 gezeigten Dataset.

Eine Grafik mit drei deutlichen Datengruppen
Abbildung 1: Ideales Datendiagramm: Daten unter realen Bedingungen sehen nur selten so aus.

Leider ähneln reale Daten Abbildung 2, was die visuelle Bewertung der Clusterqualität erschwert.

Eine Grafik mit zufällig ausgewählten Datenpunkten
Abbildung 2: Lebensechtes Datendiagramm

Im Flussdiagramm wird zusammengefasst, wie Sie die Qualität Ihres Clusters prüfen. Die Zusammenfassung wird in den folgenden Abschnitten ausführlicher erläutert.

Grafische Darstellung des Überprüfungsprozesses
Klicken Sie hier, um eine größere Version dieses Diagramms zu sehen.

Schritt 1: Clustering-Qualität

Die Prüfung der Clustering-Qualität ist kein strenger Prozess, da das Clustering keine wahrheitsgemäßen Informationen enthält. Im Folgenden finden Sie Richtlinien, die Sie iterativ anwenden können, um die Clustering-Qualität zu verbessern.

Führen Sie zuerst eine visuelle Prüfung durch, um sicherzustellen, dass die Cluster wie erwartet aussehen und Beispiele, die Ihnen ähnlich sind, im selben Cluster angezeigt werden. Sehen Sie sich dann diese häufig verwendeten Messwerte an, wie in den folgenden Abschnitten beschrieben:

  • Clusterkardinalität
  • Clustergröße
  • Leistung des nachgelagerten Systems
Ein Balkendiagramm, das die Kardinalität mehrerer Cluster zeigt. Einige Cluster haben große Unterschiede.
Abbildung 2: Kardinalität mehrerer Cluster.

Clusterkardinalität

Die Clusterkardinalität ist die Anzahl der Beispiele pro Cluster. Stellen Sie die Clusterkardinalität für alle Cluster dar und untersuchen Sie Cluster, die größere Ausreißer sind. Untersuchen Sie beispielsweise in Abbildung 2 die Clusternummer 5.

Ein Balkendiagramm, das die Größe mehrerer Cluster darstellt. Ein Cluster hat eine bedeutend höhere Größe als die anderen Cluster.
Abbildung 3: Umfang mehrerer Cluster.

Clustergröße

Die Clustergröße ist die Summe der Entfernungen von allen Beispielen zum Schwerpunkt des Clusters. Ähnlich wie bei Kardinalität sollten Sie auch prüfen, wie stark diese Schwankungen in den Clustern sind, und Anomalien untersuchen. Untersuchen Sie beispielsweise in Abbildung 3 die Clusternummer 0.

Ein Streudiagramm, das die Kardinalität und die Stärke mehrerer Cluster zeigt. Ein Cluster ist ein Ausreißer im Diagramm.
Abbildung 4: Kardinalität und Magnitude mehrerer Cluster.

Magnitude vs. Kardinalität

Eine höhere Clusterkardinalität führt tendenziell zu einer höheren Clusterintensität, was intuitiv sinnvoll ist. Cluster sind anomal, wenn die Kardinalität im Verhältnis zu den anderen Clustern nicht zum Ausmaß passt. Ermitteln Sie anomale Cluster, indem Sie die Größenordnung mit der Kardinalität vergleichen. In Abbildung 4 zeigt beispielsweise das Anpassen einer Linie an die Clustermesswerte, dass die Clusternummer 0 anomal ist.

Leistung des nachgelagerten Systems

Da die Clustering-Ausgabe häufig in nachgelagerten ML-Systemen verwendet wird, sollten Sie prüfen, ob sich die Leistung des nachgelagerten Systems verbessert, wenn sich der Clustering-Prozess ändert. Die Auswirkungen auf die nachgelagerte Leistung bieten einen realen Test für die Qualität Ihres Clusters. Der Nachteil besteht darin, dass diese Prüfung komplex ist.

Fragen, die untersucht werden müssen, wenn Probleme gefunden werden

Wenn Sie Probleme feststellen, prüfen Sie die Datenvorbereitung und die Ähnlichkeitsmessung. Stellen Sie sich dabei die folgenden Fragen:

  • Werden Ihre Daten skaliert?
  • Ist die Ähnlichkeitsmessung korrekt?
  • Führt der Algorithmus semantisch aussagekräftige Vorgänge für die Daten aus?
  • Stimmen die Annahmen Ihres Algorithmus mit den Daten überein?

Schritt 2: Leistung der Ähnlichkeitsmessung

Ihr Clustering-Algorithmus ist nur so gut wie Ihr Ähnlichkeitsmesswert. Achte darauf, dass deine Ähnlichkeitsmessung aussagekräftige Ergebnisse liefert. Am einfachsten ist es, zwei Paare von Beispielen zu identifizieren, die bekanntermaßen mehr oder weniger ähnlich sind. Berechnen Sie dann die Ähnlichkeitsmessung für jedes Beispielpaar. Achten Sie darauf, dass die Ähnlichkeitsmessung für ähnliche Beispiele höher ist als die für weniger ähnliche.

Die Beispiele, mit denen Sie die Ähnlichkeitsmessung ermitteln, sollten dem Dataset entsprechen. Achten Sie darauf, dass die Ähnlichkeitsmessung für alle Ihre Beispiele gilt. Eine sorgfältige Überprüfung stellt sicher, dass Ihre Ähnlichkeitsmessung im Dataset konsistent ist, egal ob manuell oder überwacht. Wenn die Ähnlichkeitsmessung für einige Beispiele nicht konsistent ist, werden diese nicht geclustert.

Wenn Sie Beispiele mit ungenauen Ähnlichkeiten finden, werden mit der Ähnlichkeitsmessung wahrscheinlich nicht die Featuredaten erfasst, die diese Beispiele unterscheiden. Experimentieren Sie mit Ihrer Ähnlichkeitsmessung und ermitteln Sie, ob Sie genauere Ähnlichkeiten erhalten.

Schritt 3: Optimale Anzahl von Clustern

Für k-means müssen Sie die Anzahl der Cluster \(k\) vorher entscheiden. Wie wird der optimale Wert von \(k\)ermittelt? Führen Sie den Algorithmus zum Erhöhen \(k\) aus und notieren Sie sich die Summe der Clustergrößen. Mit zunehmender \(k\)Anzahl werden die Cluster kleiner und die Gesamtentfernung nimmt ab. Ordnen Sie diese Entfernung der Anzahl der Cluster zu.

Wie in Abbildung 4 gezeigt, nimmt die Verringerung des Verlusts bei einer bestimmten \(k\)mit zunehmender \(k\)ab. Mathematisch gesehen entspricht dies ungefähr der \(k\)Kurve, die sich über -1 (\(\theta > 135^{\circ}\)) erstreckt. In dieser Richtlinie ist kein genauer Wert für das Optimum angegeben \(k\) , sondern nur ein ungefährer Wert. Für das gezeigte Diagramm beträgt das Optimum \(k\) ungefähr 11. Wenn Sie detailliertere Cluster bevorzugen, können Sie anhand dieses Diagramms eine höhere \(k\) auswählen.

Ein Diagramm, das die verwendeten verlorenen Cluster zeigt. Der Verlust nimmt mit zunehmender Anzahl von Clustern ab, bis er etwa 10 Cluster erreicht
Abbildung 4: Verlust vs. Clusteranzahl