Diese Seite wurde von der Cloud Translation API übersetzt.

Glossar für maschinelles Lernen: Clustering

Diese Seite enthält Begriffe aus dem Glossar zum Thema Clustering. Hier finden Sie alle Begriffe aus dem Glossar.

A

Agglomeratives Clustering

#clustering

Weitere Informationen finden Sie unter hierarchisches Clustering.

C

centroid

#clustering

Der Mittelpunkt eines Clusters, bestimmt durch einen k-Means- oder einen k-Median-Algorithmus. Wenn k beispielsweise 3 ist, werden mit dem k-Means- oder k-Median-Algorithmus drei Schwerpunkte gefunden.

Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.

Zentroidbasiertes Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, mit denen Daten in nicht hierarchische Cluster organisiert werden. K-Means ist der am häufigsten verwendete centroidbasierte Clustering-Algorithmus.

Im Gegensatz zu hierarchischen Clustering-Algorithmen

Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.

Clustering

#clustering

Gruppieren Sie ähnliche Beispiele, insbesondere beim unbeaufsichtigten Lernen. Sobald alle Beispiele gruppiert sind, kann ein Mensch optional jedem Cluster eine Bedeutung zuweisen.

Es gibt viele Clustering-Algorithmen. Der K-Means-Algorithmus gruppiert beispielsweise Beispiele basierend auf ihrer Nähe zu einem Centroid, wie im folgenden Diagramm dargestellt:

Ein menschlicher Forscher könnte dann die Cluster überprüfen und Cluster 1 beispielsweise als „Zwergbäume“ und Cluster 2 als „Bäume in voller Größe“ kennzeichnen.

Ein weiteres Beispiel ist ein Clustering-Algorithmus, der auf der Entfernung eines Beispiels von einem Mittelpunkt basiert. Das wird hier veranschaulicht:

Dutzende von Datenpunkten sind in konzentrischen Kreisen angeordnet, fast wie Löcher um den Mittelpunkt eines Dartbretts. Der innerste Ring der Datenpunkte wird als Cluster 1, der mittlere Ring als Cluster 2 und der äußerste Ring als Cluster 3 kategorisiert.

Weitere Informationen finden Sie im Kurs zum Thema Clustering.

D

Divisive Clustering

#clustering

Weitere Informationen finden Sie unter hierarchisches Clustering.

H

Hierarchisches Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, mit denen ein Clusterbaum erstellt wird. Das hierarchische Clustering eignet sich gut für hierarchische Daten wie botanischen Taxonomien. Es gibt zwei Arten von hierarchischen Clustering-Algorithmen:

Beim Agglomerative Clustering wird zuerst jedem Beispiel ein eigener Cluster zugewiesen und dann werden die nächsten Cluster iterativ zusammengeführt, um einen hierarchischen Baum zu erstellen.
Beim Divisiven Clustering werden zuerst alle Beispiele in einen Cluster gruppiert und dann iterativ in ein hierarchisches Baumdiagramm unterteilt.

Im Gegensatz zum centroidbasierten Clustern.

Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.

K

K-Means

#clustering

Ein beliebter Clustering-Algorithmus, mit dem Beispiele im Rahmen des unbeaufsichtigten Lernens gruppiert werden. Der k-Means-Algorithmus führt im Grunde Folgendes aus:

Bestimmt iterativ die besten K-Zentrumspunkte (Schwerpunkte).
Jedem Beispiel wird der nächstgelegene Schwerpunkt zugewiesen. Die Beispiele, die demselben Centroid am nächsten sind, gehören zur selben Gruppe.

Der k-Means-Algorithmus wählt die Schwerpunkte so aus, dass das kumulative Quadrat der Entfernungen von jedem Beispiel zum nächstgelegenen Schwerpunkt minimiert wird.

Betrachten Sie beispielsweise das folgende Diagramm, in dem die Höhe von Hunden in Relation zu ihrer Breite dargestellt ist:

Ein kartesisches Diagramm mit mehreren Dutzend Datenpunkten.

Wenn k=3 ist, bestimmt der k-Means-Algorithmus drei Schwerpunkte. Jedem Beispiel wird der nächstgelegene Schwerpunkt zugewiesen. So ergeben sich drei Gruppen:

Das gleiche kartesische Diagramm wie in der vorherigen Abbildung, nur mit drei hinzugefügten Centroiden.
Die vorherigen Datenpunkte sind in drei verschiedene Gruppen geclustert. Jede Gruppe stellt die Datenpunkte dar, die einem bestimmten Centroid am nächsten sind.

Angenommen, ein Hersteller möchte die idealen Größen für kleine, mittelgroße und große Pullover für Hunde ermitteln. Die drei Schwerpunkte geben die durchschnittliche Höhe und Breite jedes Hundes in diesem Cluster an. Daher sollte der Hersteller die Pullovergrößen wahrscheinlich auf diesen drei Centroiden basieren. Der Schwerpunkt eines Clusters ist in der Regel kein Beispiel im Cluster.

Die vorherigen Abbildungen zeigen K-Means-Verfahren für Beispiele mit nur zwei Merkmalen (Höhe und Breite). Beachten Sie, dass K-Means-Cluster Beispiele über viele Features hinweg gruppieren können.

Weitere Informationen finden Sie im Kurs „Clustering“ unter Was ist K-Means-Clustering?

K-Median

#clustering

Ein Clustering-Algorithmus, der eng mit k-Means verwandt ist. Die beiden unterscheiden sich in der Praxis so:

Bei K-Means werden die Schwerpunkte durch Minimieren der Summe der Quadrate der Entfernung zwischen einem Kandidaten für den Schwerpunkt und den einzelnen Beispielen bestimmt.
Beim K-Median werden die Schwerpunkte durch Minimieren der Summe der Entfernung zwischen einem Kandidaten für den Schwerpunkt und jedem seiner Beispiele bestimmt.

Beachten Sie, dass sich auch die Definitionen für die Entfernung unterscheiden:

Bei der K-Means-Methode wird die euklidische Entfernung vom Schwerpunkt zu einem Beispiel verwendet. (In zwei Dimensionen bedeutet der euklidische Abstand, dass die Hypotenuse mit dem Satz des Pythagoras berechnet wird.) Die K-Means-Distanz zwischen (2,2) und (5,-2) würde beispielsweise so berechnet:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

Beim k-Median wird die Manhattan-Distanz vom Schwerpunkt zu einem Beispiel verwendet. Dieser Abstand ist die Summe der absoluten Deltas in jeder Dimension. Beispiel: Der K-Median-Abstand zwischen (2,2) und (5,-2) ist:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

Ähnlichkeitsmaß

#clustering

#Messwert

In Clustering-Algorithmen wird mit diesem Messwert bestimmt, wie ähnlich sich zwei Beispiele sind.

Skizzieren

#clustering

Unüberwachtes maschinelles Lernen: Eine Kategorie von Algorithmen, die eine vorläufige Ähnlichkeitsanalyse an Beispielen durchführen. Bei Skizzieralgorithmen wird eine lokalitätssensitive Hash-Funktion verwendet, um Punkte zu identifizieren, die wahrscheinlich ähnlich sind, und sie dann in Bucket zu gruppieren.

Durch das Skizzieren wird die für Ähnlichkeitsberechnungen bei großen Datensätzen erforderliche Rechenleistung reduziert. Anstatt die Ähnlichkeit für jedes Beispielpaar im Dataset zu berechnen, wird sie nur für jedes Punktpaar innerhalb jedes Buckets berechnet.

T

Zeitreihenanalyse

#clustering

Ein Teilgebiet des maschinellen Lernens und der Statistik, bei dem zeitliche Daten analysiert werden. Viele Arten von Problemen mit maschinellem Lernen erfordern eine Zeitreihenanalyse, einschließlich Klassifizierung, Clustering, Prognose und Anomalieerkennung. Mithilfe einer Zeitreihenanalyse können Sie beispielsweise die zukünftigen Verkäufe von Wintermänteln nach Monat anhand von bisherigen Verkaufsdaten prognostizieren.

U

unüberwachtes maschinelles Lernen

#clustering

#fundamentals

Training eines Modells zum Finden von Mustern in einem Dataset, in der Regel einem nicht beschrifteten Dataset.

Die am häufigsten verwendete Methode für unbeaufsichtigtes maschinelles Lernen ist das Clustering von Daten in Gruppen ähnlicher Beispiele. Ein unüberwachter Algorithmus für maschinelles Lernen kann beispielsweise Songs basierend auf verschiedenen Eigenschaften der Musik gruppieren. Die resultierenden Cluster können als Eingabe für andere Algorithmen des maschinellen Lernens verwendet werden, z. B. für einen Musikempfehlungsservice. Clustering kann hilfreich sein, wenn nützliche Labels selten oder gar nicht vorhanden sind. In Bereichen wie Missbrauchs- und Betrugsprävention können Cluster beispielsweise Menschen helfen, die Daten besser zu verstehen.

Im Gegensatz zu überwachtem maschinellem Lernen.

Klicken Sie auf das Symbol, um weitere Notizen hinzuzufügen.

Ein weiteres Beispiel für unüberwachtes maschinelles Lernen ist die Hauptkomponentenanalyse (Principal Component Analysis, PCA). Wenn Sie beispielsweise die PCA auf einen Datensatz anwenden, der den Inhalt von Millionen von Einkaufswagen enthält, können Sie feststellen, dass Einkaufswagen mit Zitronen häufig auch Antazida enthalten.

Weitere Informationen finden Sie im Kurs „Einführung in maschinelles Lernen“ unter Was ist maschinelles Lernen?

Glossar für maschinelles Lernen: Clustering Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

A

Agglomeratives Clustering

C

centroid

Zentroidbasiertes Clustering

Clustering

D

Divisive Clustering

H

Hierarchisches Clustering

K

K-Means

K-Median

S

Ähnlichkeitsmaß

Skizzieren

T

Zeitreihenanalyse

U

unüberwachtes maschinelles Lernen

Klicken Sie auf das Symbol, um weitere Notizen hinzuzufügen.

Glossar für maschinelles Lernen: Clustering