Diese Seite enthält Begriffe zum Clustering-Glossar. Alle Glossarbegriffe finden Sie hier.
A
Agglomeratives Clustering
Siehe Hierarchisches Clustering.
C
Schwerpunkt
Die Mitte eines Clusters, ermittelt durch einen k-means- oder k-median-Algorithmus. Wenn beispielsweise k 3 ist, findet der k-Means- oder k-Median-Algorithmus 3 Schwerpunkte.
Schwerpunkt-Clustering
Eine Kategorie von Clustering-Algorithmen, die Daten in nicht hierarchische Cluster gruppieren. k-Means ist der am häufigsten verwendete centroidbasierte Clustering-Algorithmus.
Im Gegensatz zu hierarchischen Clustering-Algorithmen.
Clustering
Gruppierungsbezogene Beispiele, insbesondere beim nicht überwachten Lernen Nachdem alle Beispiele gruppiert sind, kann ein Mensch optional für jeden Cluster eine Bedeutung angeben.
Es gibt viele Clustering-Algorithmen. Beispielsweise werden im k-means-Algorithmus Beispiele anhand ihrer Nähe zu einem Schwerpunkt gruppiert, wie im folgenden Diagramm dargestellt:
Ein menschlicher Forscher könnte die Cluster dann überprüfen und beispielsweise Cluster 1 als „Zwergbaum“ und Cluster 2 als „große Bäume“ kennzeichnen.
Ein weiteres Beispiel ist ein Clusteralgorithmus, der auf einem Abstand zu einem Mittelpunkt basiert. Beispiel:
D
divingives Clustering
Siehe Hierarchisches Clustering.
H
hierarchisches Clustering
Eine Kategorie von Clustering-Algorithmen, die eine Baumstruktur von Clustern erstellen. Das hierarchische Clustering eignet sich gut für hierarchische Daten, z. B. botanische Taxonomien. Es gibt zwei Arten von hierarchischen Clustering-Algorithmen:
- Beim aggregierenden Clustering wird zuerst jedes Beispiel einem eigenen Cluster zugewiesen und die nächstgelegenen Cluster werden iterativ zusammengeführt, um eine hierarchische Struktur zu erstellen.
- Beim diversiven Clustering werden zuerst alle Beispiele in einem Cluster gruppiert und es dann iterativ in eine hierarchische Baumstruktur aufgeteilt.
Kontrast zum Schwerpunkt auf Clusterfokus
$
K-Means
Ein beliebter Clustering-Algorithmus, der Beispiele für unüberwachtes Lernen gruppiert. Der k-Means-Algorithmus führt im Grunde Folgendes aus:
- Hiermit werden die besten k-Zentren (sogenannte Schwerpunkte) iterativ bestimmt.
- Weist jedem Beispiel den nächstgelegenen Schwerpunkt zu. Diese Beispiele, die dem gleichen Schwerpunkt am nächsten liegen, gehören zur selben Gruppe.
Der k-Means-Algorithmus wählt Schwerpunkte aus, um das kumulative Quadrat der Entfernungen von jedem Beispiel zum nächstgelegenen Schwerpunkt zu minimieren.
Ein Beispiel:
Wenn k=3 ist, ermittelt der k-Means-Algorithmus drei Schwerpunkte. Jedes Beispiel wird dem nächstgelegenen Schwerpunkt zugewiesen, was drei Gruppen ergibt:
Angenommen, ein Hersteller möchte die idealen Größen für kleine, mittelgroße und große Pullover für Hunde ermitteln. Die drei Schwerpunkte geben die mittlere Größe und die mittlere Breite jedes Hundes in diesem Cluster an. Daher sollte der Hersteller vermutlich Pullovergrößen auf diesen drei Schwerpunkten ausrichten. Beachten Sie, dass der Schwerpunkt eines Clusters in der Regel kein Beispiel im Cluster ist.
Die obigen Abbildungen zeigen k-Means für Beispiele mit nur zwei Merkmalen (Höhe und Breite). k-means kann Beispiele für viele Features enthalten.
K-Median
Ein Clustering-Algorithmus, der eng mit k-means verbunden ist. Der praktische Unterschied besteht darin:
- In k-Means werden Schwerpunkte ermittelt, indem die Summe der Quadrate der Entfernung zwischen einem Schwerpunktkandidat und jedem ihrer Beispiele minimiert wird.
- In k-Median werden Schwerpunkte ermittelt, indem die Summe der Entfernung zwischen einem Schwerpunkt und jedem seiner Beispiele minimiert wird.
Beachten Sie, dass sich die Definitionen für Entfernungen ebenfalls unterscheiden:
- k-Means basiert auf der euklidischen Entfernung vom Schwerpunkt zu einem Beispiel. In zwei Dimensionen bedeutet die Entfernung im euklidischen Stil die Hypotenuse anhand des Pythagoras. Die k-Means-Entfernung zwischen (2,2) und (5,-2) wäre beispielsweise:
- k-median basiert auf der Mandanten-Entfernung vom Schwerpunkt zu einem Beispiel. Dieser Abstand ist die Summe der absoluten Deltas in jeder Dimension. Der k-Medianwert zwischen (2,2) und (5,-2) wäre beispielsweise:
S
Ähnlichkeitsmesswert
In Clustering-Algorithmen wird der Messwert verwendet, um zu bestimmen, wie ähnlich sich zwei Beispiele sind.
Skizzieren
Bei nicht überwachtem maschinellem Lernen eine Kategorie von Algorithmen, die eine vorläufige Ähnlichkeitsanalyse anhand von Beispielen ausführen. Skizzierungsalgorithmen verwenden eine ortsabhängige Hash-Funktion, um Punkte zu identifizieren, die wahrscheinlich ähnlich sind, und sie dann in Buckets zu gruppieren.
Das Skizzieren verringert die Berechnungen für Ähnlichkeitsberechnungen für große Datasets. Anstatt die Ähnlichkeit für jedes einzelne Paar von Beispielen im Dataset zu berechnen, wird nur die Ähnlichkeit für jedes Paar von Punkten innerhalb jedes Buckets berechnet.
T
Zeitachsenanalyse
Ein Unterfeld für maschinelles Lernen und Statistiken, das temporäre Daten analysiert. Viele Arten von Problemen im Bereich des maschinellen Lernens erfordern Zeitachsenanalysen, einschließlich Klassifizierung, Clustering, Prognosen und Anomalieerkennung. Beispielsweise können Sie mithilfe der Zeitachsenanalyse den zukünftigen Umsatz von Wintermänteln nach Monat prognostizieren.
U
unbeaufsichtigtes maschinelles Lernen
Trainieren eines Modells, um Muster in einem Dataset zu finden, normalerweise ein Dataset ohne Label.
Am häufigsten wird das nicht überwachte maschinelle Lernen zum Clustern von Gruppen mit ähnlichen Beispielen verwendet. Ein nicht überwachter Algorithmus für maschinelles Lernen kann beispielsweise Songs basierend auf verschiedenen Eigenschaften der Musik gruppieren. Die daraus resultierenden Cluster können als Eingabe für andere Algorithmen für maschinelles Lernen verwendet werden, z. B. für einen Musikempfehlungsdienst. Clustering kann hilfreich sein, wenn nützliche Labels nicht verfügbar sind oder nicht vorhanden sind. In Domains wie Anti-Missbrauch und Betrug können Cluster beispielsweise dabei helfen, die Daten besser zu verstehen.
Im Gegensatz dazu steht das überwachte maschinelle Lernen im Vordergrund.