Glossar zum maschinellen Lernen: Clustering

Diese Seite enthält Begriffe aus dem Clustering-Glossar. Alle Glossarbegriffe finden Sie hier.

A

Agglomeratives Clustering

#clustering

Siehe Hierarchie-Clustering.

C

Schwerpunkt

#clustering

Die Mitte eines Clusters, ermittelt durch einen k-means- oder k-median-Algorithmus. Wenn z. B. k 3 ist, findet der „k-median“-Algorithmus 3 Schwerpunkte.

Schwerpunkt-Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, mit denen Daten in nicht hierarchische Cluster gruppiert werden. k-means ist der am häufigsten verwendete Centroid-basierte Clustering-Algorithmus.

Im Gegensatz zu hierarchischen Clustering-Algorithmen

Clustering

#clustering

Gruppierungsbezogene Beispiele, insbesondere beim nicht überwachten Lernen. Sobald alle Beispiele gruppiert sind, kann ein Mensch optional jedem Cluster eine Bedeutung zuweisen.

Es gibt viele Clustering-Algorithmen. Der Algorithmus k-means beispielsweise führt Beispiele anhand ihrer Nähe zu einem Schwerpunkt aus, wie im folgenden Diagramm dargestellt:

Eine zweidimensionale Grafik, in der die X-Achse als „Baumbreite“ und die Y-Achse mit „Baumhöhe“ gekennzeichnet sind. Die Grafik enthält zwei Schwerpunkte und mehrere Dutzend Datenpunkte. Die Datenpunkte werden nach ihrer Nähe kategorisiert. Das heißt, die Datenpunkte, die dem nächsten Mittelpunkt am nächsten sind, werden als „Cluster 1“ kategorisiert, während die Punkte, die dem anderen Mittelpunkt am nächsten sind, als „Cluster 2“ kategorisiert werden.

Ein menschlicher Forscher könnte die Cluster dann überprüfen und beispielsweise Cluster 1 als „Zwergbäume“ und Cluster 2 als „Vollbaum“ kennzeichnen.

Ein weiteres Beispiel ist ein Clusteralgorithmus, der auf der Entfernung eines Beispiels von einem Mittelpunkt basiert:

Dutzende von Datenpunkten sind in konzentrischen Kreisen angeordnet, fast wie Löcher in der Mitte einer Dartscheibe. Der innerste Ring der Datenpunkte wird als „Cluster 1“, der mittlere Ring als „Cluster 2“ und der äußere Ring als „Cluster 3“ kategorisiert.

D

diversives Clustering

#clustering

Siehe Hierarchie-Clustering.

H

Hierarchisches Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, die einen Cluster aus Clustern erstellen. Hierarchisches Clustering eignet sich gut für hierarchische Daten wie botanische Taxonomien. Es gibt zwei Arten von hierarchischen Clustering-Algorithmen:

  • Beim aggregativen Clustering wird jedes Beispiel einem eigenen Cluster zugewiesen und die nächstgelegenen Cluster werden iterativ zusammengeführt, um eine hierarchische Baumstruktur zu erstellen.
  • Beim dividativen Clustering werden alle Beispiele zuerst in einem Cluster gruppiert und der Cluster dann iterativ in eine hierarchische Baumstruktur unterteilt.

Vergleichen Sie dies mit dem Centroid-basierten Clustering.

K

K-Means

#clustering

Ein beliebter Clustering-Algorithmus, der Beispiele für unüberwachtes Lernen gruppiert. Der k-Means-Algorithmus führt im Wesentlichen folgende Schritte aus:

  • Es werden iterativ die besten k-Mittelpunkte (auch als Schwerpunkte bezeichnet) ermittelt.
  • Weist jedes Beispiel dem nächstgelegenen Schwerpunkt zu. Diese Beispiele, die dem gleichen Schwerpunkt am nächsten sind, gehören zur selben Gruppe.

Der k-Means-Algorithmus wählt Standorte für Schwerpunkte aus, um das kumulative Quadrat der Entfernungen von jedem Beispiel zum nächstgelegenen Schwerpunkt zu reduzieren.

Ein Beispiel ist die Darstellung von Hundehöhe zu Hundebreite:

Ein kartesisches Diagramm mit mehreren Dutzend Datenpunkten.

Wenn k=3 lautet, ermittelt der k-Means-Algorithmus drei Schwerpunkte. Jedes Beispiel ist dem nächstgelegenen Schwerpunkt zugewiesen, was drei Gruppen ergibt:

Die gleiche kartesische Handlung wie in der vorherigen Abbildung, außer dass drei Schwerpunkte hinzugefügt werden.
          Die vorherigen Datenpunkte werden in drei verschiedene Gruppen gruppiert, wobei jede Gruppe die Datenpunkte darstellt, die einem bestimmten Schwerpunkt am nächsten sind.

Stellen Sie sich vor, ein Hersteller möchte die idealen Größen für kleine, mittlere und große Pullover für Hunde bestimmen. Die drei Schwerpunkte definieren die durchschnittliche Höhe und durchschnittliche Breite jedes Hundes in diesem Cluster. Der Hersteller sollte also wahrscheinlich seine Pullovergrößen auf diesen drei Schwerpunkten ausrichten. Der Schwerpunkt eines Clusters ist in der Regel kein Beispiel im Cluster.

Die vorherigen Abbildungen zeigen k-Means an Beispielen mit nur zwei Merkmalen (Höhe und Breite). Mit k-means können Beispiele für viele Features gruppiert werden.

K-Median

#clustering

Ein Clustering-Algorithmus, der in engem Bezug zu k-means steht. Der praktische Unterschied zwischen den beiden Methoden sieht so aus:

  • In k-Means werden die Schwerpunkte durch Minimieren der Quadrate der Entfernung zwischen einem Schwerpunktkandidaten und jedem der Beispiele reduziert.
  • Bei k-Median werden Schwerpunkte ermittelt, indem die Summe der Entfernung zwischen einem Schwerpunktkandidaten und jedem seiner Beispiele minimiert wird.

Auch die Definitionen für Entfernungen unterscheiden sich:

  • Für k-means wird die Euklidische Entfernung vom Schwerpunkt zu einem Beispiel herangezogen. (In zwei Dimensionen bezeichnet die euklidische Entfernung die Berechnung der Hypotenuse mithilfe des Satzes des Pythagoras.) Die k-Means-Entfernung zwischen (2,2) und (5,-2) wäre beispielsweise:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • Für den Wert „k-median“ wird die Meilen von Manhattan zu einem Beispiel herangezogen. Dieser Abstand ist die Summe der absoluten Deltas in jeder Dimension. Die k-Mediandistanz zwischen (2,2) und (5,-2) wäre beispielsweise:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

Ähnlichkeitsmesswert

#clustering

In Clustering-Algorithmen wird der Messwert verwendet, um zu ermitteln, wie sehr sich zwei Beispiele ähneln.

Skizzieren

#clustering

Unter überwachtes maschinelles Lernen eine Kategorie von Algorithmen, die eine vorläufige Ähnlichkeitsanalyse von Beispielen ausführen. Skizzierungsalgorithmen verwenden eine ortsabhängige Hash-Funktion, um Punkte zu identifizieren, die wahrscheinlich ähnlich sind, und sie dann in Buckets zu gruppieren.

Durch das Skizzieren wird die Berechnung für Ähnlichkeitsberechnungen bei großen Datasets reduziert. Anstatt für jedes einzelne Paar von Beispielen im Dataset die Ähnlichkeit zu berechnen, wird die Ähnlichkeit nur für jedes Paar von Punkten in jedem Bucket berechnet.

D

Zeitreihenanalyse

#clustering

Ein Teilbereich des maschinellen Lernens und der Statistiken, der zeitliche Daten analysiert. Viele Arten von Problemen für maschinelles Lernen erfordern Zeitreihenanalysen, einschließlich Klassifizierung, Clustering, Prognose und Anomalieerkennung. Mit der Zeitreihenanalyse können Sie beispielsweise die zukünftigen Verkäufe von Mänteln nach Monat prognostizieren, die auf historischen Verkaufsdaten basieren.

U

unüberwachtes maschinelles Lernen

#clustering
#fundamentals

Modell trainieren, um Muster in einem Dataset zu finden, in der Regel ein Dataset ohne Label.

Am häufigsten werden unüberwachte Machine Learning-Technologien verwendet, um Daten in Gruppen von ähnlichen Beispielen zu clustern. Ein nicht überwachter Algorithmus für maschinelles Lernen kann beispielsweise Songs basierend auf verschiedenen Eigenschaften der Musik gruppieren. Die daraus resultierenden Cluster können als Eingabe für andere Machine-Learning-Algorithmen verwendet werden, z. B. in einen Musikempfehlungsdienst. Clustering kann hilfreich sein, wenn nützliche Labels nicht vorhanden sind oder nicht vorhanden sind. In Domains wie Missbrauch und Betrug können Cluster zum Beispiel helfen, die Daten besser zu verstehen.

Verwenden Sie stattdessen überwachtes maschinelles Lernen.