Glossar zum maschinellen Lernen: Clustering

Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Diese Seite enthält Begriffe zum Clustering-Glossar. Alle Glossarbegriffe finden Sie hier.

A

Agglomeratives Clustering

#clustering

Siehe Hierarchisches Clustering.

C

Schwerpunkt

#clustering

Die Mitte eines Clusters, ermittelt durch einen k-means- oder k-median-Algorithmus. Wenn beispielsweise k 3 ist, findet der k-Means- oder k-Median-Algorithmus 3 Schwerpunkte.

Schwerpunkt-Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, die Daten in nicht hierarchische Cluster gruppieren. k-Means ist der am häufigsten verwendete centroidbasierte Clustering-Algorithmus.

Im Gegensatz zu hierarchischen Clustering-Algorithmen.

Clustering

#clustering

Gruppierungsbezogene Beispiele, insbesondere beim nicht überwachten Lernen Nachdem alle Beispiele gruppiert sind, kann ein Mensch optional für jeden Cluster eine Bedeutung angeben.

Es gibt viele Clustering-Algorithmen. Beispielsweise werden im k-means-Algorithmus Beispiele anhand ihrer Nähe zu einem Schwerpunkt gruppiert, wie im folgenden Diagramm dargestellt:

Eine zweidimensionale Grafik, bei der die x-Achse die Baumstruktur und die y-Achse bezeichnen.  Die Grafik enthält zwei Schwerpunkte und mehrere Dutzend Datenpunkte. Die Datenpunkte werden anhand ihrer Nähe kategorisiert. Das bedeutet, dass die Datenpunkte, die einem Zentrum am nächsten sind, als Cluster 1 kategorisiert werden, während die Datenpunkte, die dem anderen Schwerpunkt am nächsten sind, als 'Cluster 2' kategorisiert werden.

Ein menschlicher Forscher könnte die Cluster dann überprüfen und beispielsweise Cluster 1 als „Zwergbaum“ und Cluster 2 als „große Bäume“ kennzeichnen.

Ein weiteres Beispiel ist ein Clusteralgorithmus, der auf einem Abstand zu einem Mittelpunkt basiert. Beispiel:

Dutzende von Datenpunkten sind in konzentrischen Kreisen angeordnet, fast wie Löcher um die Mitte einer Dartscheibe. Der innerste Ring der Datenpunkte wird als 'Cluster 1' der mittlere Ring als #39;Cluster 2' der äußere Ring als #39;Cluster 3' kategorisiert.

D

divingives Clustering

#clustering

Siehe Hierarchisches Clustering.

H

hierarchisches Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, die eine Baumstruktur von Clustern erstellen. Das hierarchische Clustering eignet sich gut für hierarchische Daten, z. B. botanische Taxonomien. Es gibt zwei Arten von hierarchischen Clustering-Algorithmen:

  • Beim aggregierenden Clustering wird zuerst jedes Beispiel einem eigenen Cluster zugewiesen und die nächstgelegenen Cluster werden iterativ zusammengeführt, um eine hierarchische Struktur zu erstellen.
  • Beim diversiven Clustering werden zuerst alle Beispiele in einem Cluster gruppiert und es dann iterativ in eine hierarchische Baumstruktur aufgeteilt.

Kontrast zum Schwerpunkt auf Clusterfokus

$

K-Means

#clustering

Ein beliebter Clustering-Algorithmus, der Beispiele für unüberwachtes Lernen gruppiert. Der k-Means-Algorithmus führt im Grunde Folgendes aus:

  • Hiermit werden die besten k-Zentren (sogenannte Schwerpunkte) iterativ bestimmt.
  • Weist jedem Beispiel den nächstgelegenen Schwerpunkt zu. Diese Beispiele, die dem gleichen Schwerpunkt am nächsten liegen, gehören zur selben Gruppe.

Der k-Means-Algorithmus wählt Schwerpunkte aus, um das kumulative Quadrat der Entfernungen von jedem Beispiel zum nächstgelegenen Schwerpunkt zu minimieren.

Ein Beispiel:

Ein kartesisches Diagramm mit mehreren Dutzend Datenpunkten.

Wenn k=3 ist, ermittelt der k-Means-Algorithmus drei Schwerpunkte. Jedes Beispiel wird dem nächstgelegenen Schwerpunkt zugewiesen, was drei Gruppen ergibt:

Dasselbe kartesische Diagramm wie in der vorherigen Abbildung, außer dass drei Schwerpunkte hinzugefügt wurden.
          Die vorherigen Datenpunkte werden in drei verschiedenen Gruppen zusammengefasst, wobei jede Gruppe die Datenpunkte darstellt, die einem bestimmten Schwerpunkt am nächsten sind.

Angenommen, ein Hersteller möchte die idealen Größen für kleine, mittelgroße und große Pullover für Hunde ermitteln. Die drei Schwerpunkte geben die mittlere Größe und die mittlere Breite jedes Hundes in diesem Cluster an. Daher sollte der Hersteller vermutlich Pullovergrößen auf diesen drei Schwerpunkten ausrichten. Beachten Sie, dass der Schwerpunkt eines Clusters in der Regel kein Beispiel im Cluster ist.

Die obigen Abbildungen zeigen k-Means für Beispiele mit nur zwei Merkmalen (Höhe und Breite). k-means kann Beispiele für viele Features enthalten.

K-Median

#clustering

Ein Clustering-Algorithmus, der eng mit k-means verbunden ist. Der praktische Unterschied besteht darin:

  • In k-Means werden Schwerpunkte ermittelt, indem die Summe der Quadrate der Entfernung zwischen einem Schwerpunktkandidat und jedem ihrer Beispiele minimiert wird.
  • In k-Median werden Schwerpunkte ermittelt, indem die Summe der Entfernung zwischen einem Schwerpunkt und jedem seiner Beispiele minimiert wird.

Beachten Sie, dass sich die Definitionen für Entfernungen ebenfalls unterscheiden:

  • k-Means basiert auf der euklidischen Entfernung vom Schwerpunkt zu einem Beispiel. In zwei Dimensionen bedeutet die Entfernung im euklidischen Stil die Hypotenuse anhand des Pythagoras. Die k-Means-Entfernung zwischen (2,2) und (5,-2) wäre beispielsweise:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median basiert auf der Mandanten-Entfernung vom Schwerpunkt zu einem Beispiel. Dieser Abstand ist die Summe der absoluten Deltas in jeder Dimension. Der k-Medianwert zwischen (2,2) und (5,-2) wäre beispielsweise:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

Ähnlichkeitsmesswert

#clustering

In Clustering-Algorithmen wird der Messwert verwendet, um zu bestimmen, wie ähnlich sich zwei Beispiele sind.

Skizzieren

#clustering

Bei nicht überwachtem maschinellem Lernen eine Kategorie von Algorithmen, die eine vorläufige Ähnlichkeitsanalyse anhand von Beispielen ausführen. Skizzierungsalgorithmen verwenden eine ortsabhängige Hash-Funktion, um Punkte zu identifizieren, die wahrscheinlich ähnlich sind, und sie dann in Buckets zu gruppieren.

Das Skizzieren verringert die Berechnungen für Ähnlichkeitsberechnungen für große Datasets. Anstatt die Ähnlichkeit für jedes einzelne Paar von Beispielen im Dataset zu berechnen, wird nur die Ähnlichkeit für jedes Paar von Punkten innerhalb jedes Buckets berechnet.

T

Zeitachsenanalyse

#clustering

Ein Unterfeld für maschinelles Lernen und Statistiken, das temporäre Daten analysiert. Viele Arten von Problemen im Bereich des maschinellen Lernens erfordern Zeitachsenanalysen, einschließlich Klassifizierung, Clustering, Prognosen und Anomalieerkennung. Beispielsweise können Sie mithilfe der Zeitachsenanalyse den zukünftigen Umsatz von Wintermänteln nach Monat prognostizieren.

U

unbeaufsichtigtes maschinelles Lernen

#clustering
#fundamentals

Trainieren eines Modells, um Muster in einem Dataset zu finden, normalerweise ein Dataset ohne Label.

Am häufigsten wird das nicht überwachte maschinelle Lernen zum Clustern von Gruppen mit ähnlichen Beispielen verwendet. Ein nicht überwachter Algorithmus für maschinelles Lernen kann beispielsweise Songs basierend auf verschiedenen Eigenschaften der Musik gruppieren. Die daraus resultierenden Cluster können als Eingabe für andere Algorithmen für maschinelles Lernen verwendet werden, z. B. für einen Musikempfehlungsdienst. Clustering kann hilfreich sein, wenn nützliche Labels nicht verfügbar sind oder nicht vorhanden sind. In Domains wie Anti-Missbrauch und Betrug können Cluster beispielsweise dabei helfen, die Daten besser zu verstehen.

Im Gegensatz dazu steht das überwachte maschinelle Lernen im Vordergrund.