Glossar für maschinelles Lernen: Entscheidungswälder

Diese Seite enthält Begriffe aus dem Glossar mit Entscheidungswäldern. Alle Glossarbegriffe finden Sie hier.

A

Stichprobenerhebung

#df

Eine Taktik zum Trainieren eines Entscheidungswaldes, in dem jeder Entscheidungsbaum beim Lernen der Bedingung nur eine zufällige Teilmenge möglicher Features berücksichtigt. Im Allgemeinen wird für jeden Knoten eine andere Teilmenge der Features verwendet. Im Gegensatz dazu werden beim Trainieren eines Entscheidungsbaums ohne Attributstichproben alle verfügbaren Features für jeden Knoten berücksichtigt.

Achsenausrichtung

#df

In einem Entscheidungsbaum eine Bedingung, die nur ein einziges Feature umfasst. Wenn die Fläche beispielsweise ein Merkmal ist, ist die Bedingung an der Achse ausgerichtet:

area > 200

Kontrast: schräge Bedingung

B

Bagging

#df

Eine Methode zum Trainieren eines Ensembles, bei dem jedes einzelne Modell anhand einer zufälligen Teilmenge von Trainingsbeispielen trainiert wird, die durch Stichproben ersetzt werden. Ein Zufallswald ist beispielsweise eine Sammlung von Entscheidungsbäumen, die mit Taschen trainiert wurden.

Beutel ist die Abkürzung für bootstrap aggregaing.

Binärbedingung

#df

In einem Entscheidungsbaum eine Bedingung, die nur zwei mögliche Ergebnisse hat, normalerweise yes oder no. Beispiel: Eine binäre Bedingung ist beispielsweise:

temperature >= 100

Kontrast zum nicht binären Zustand

C

Bedingung

#df

In einem Entscheidungsbaum ist jeder Knoten, der einen Ausdruck auswertet. Der folgende Teil eines Entscheidungsbaums enthält beispielsweise zwei Bedingungen:

Einen Entscheidungsbaum, der aus zwei Bedingungen besteht: (x > 0) und (y > 0).

Eine Bedingung wird auch als Split- oder Test bezeichnet.

Kontrastzustand mit Blatt.

Weitere Informationen

D

Entscheidungswald

#df

Ein Modell, das aus mehreren Entscheidungsbaumen erstellt wurde. In einem Entscheidungswald werden Vorhersagen getroffen, indem die Vorhersagen ihres Entscheidungsbaums zusammengefasst werden. Zu den beliebten Arten von Entscheidungswäldern gehören Zufallswälder und Farben-Boosted-Bäume.

Entscheidungsbaum

#df

Ein Modell für betreutes Lernen, das aus einer Reihe von Bedingungen besteht und hiernach verlässt. Hier ein Beispiel:

Ein Entscheidungsbaum mit vier hierarchisch angeordneten Bedingungen, die zu fünf Blättern führen.

E

Entropie

#df

In der Informationstheorie wird beschrieben, wie unvorhersehbar die Wahrscheinlichkeitsverteilung ist. Als Entropie wird auch definiert, wie viele Informationen jedes Beispiel enthält. Eine Verteilung hat die höchstmögliche Entropie, wenn alle Werte einer zufälligen Variablen wahrscheinlich sind.

Die Entropie eines Satzes mit den zwei möglichen Werten "0" und "1" (z. B. Labels in einem binären Klassifizierungsproblem) hat die folgende Formel:

  H = -p log p - q log q = -p log p - (1-p) * log (1–p)

wobei

  • H ist die Entropie.
  • p ist der Anteil der „1“-Beispiele.
  • q ist der Anteil der „0“-Beispiele. Beachten Sie, dass q = (1 – p) ist.
  • log ist in der Regel log2. In diesem Fall ist die Entropieeinheit ein wenig.

Nehmen wir beispielsweise Folgendes an:

  • 100 Beispiele enthalten den Wert „1“
  • 300 Beispiele enthalten den Wert „0“

Der Entropiewert ist daher:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 Bit pro Beispiel

Ein Satz, der perfekt ausbalanciert wird (z. B. 200 "0" und 200 "1") hat eine Entropie von 1,0 Bit pro Beispiel. Wenn ein Satz ungleichmäßiger wird, wird die Entropie auf 0,0 reduziert.

In Entscheidungsbäumen hilft die Entropie dabei, Informationen zu gewinnen, damit der Splitter die Bedingungen während des Wachstums eines Klassifizierungsbaums auswählen kann.

Entropie vergleichen mit:

Entropie wird oft als Entropie von Shannon bezeichnet.

F

Wichtigkeit von Funktionen

#df

Synonym für wichtige Wichtigkeiten.

G

gini unreinheit

#df

Messwert, der Entropie ähnelt Splitter verwenden Werte, die aus Gini-Unreinheit oder Entropie abgeleitet sind, um Bedingungen für die Klassifizierung von Entscheidungsbäumen zu erstellen. Der Informationsgewinn wird aus der Entropie abgeleitet. Es gibt keine universell zulässige Bezeichnung für den Messwert, der aus „gini unrity“ abgeleitet wurde. Dieser unbenannte Messwert ist jedoch genauso wichtig wie der Informationsgewinn.

Die Gini-Unreinheit wird auch als Gini-Index oder einfach gini bezeichnet.

Gradient-Boosting

#df

Ein Trainingsalgorithmus, bei dem schwache Modelle iterativ trainiert werden, um die Qualität eines starken Modells zu reduzieren (Verlust zu reduzieren). Ein schwaches Modell kann beispielsweise ein lineares oder kleines Entscheidungsbaummodell sein. Das starke Modell ergibt sich aus der Summe aller zuvor trainierten schwachen Modelle.

In der einfachsten Form des Gradienten-Boostings wird bei jedem Durchlauf ein schwaches Modell trainiert, um den Verlustverlauf des starken Modells vorherzusagen. Anschließend wird die Ausgabe des starken Modells durch Subtrahieren des vorhergesagten Farbverlaufs aktualisiert, ähnlich wie beim Gradientenabstieg.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

wobei

  • $F_{0}$ ist das erste starke Modell.
  • $F_{i+1}$ ist das nächstbeste Modell.
  • $F_{i}$ ist das derzeit starke Modell.
  • $\xi$ ist ein Wert zwischen 0,0 und 1,0, genannt Shrinkage, der der Lernrate beim Gradientenabstieg entspricht.
  • $f_{i}$ ist das schwache Modell, das dafür trainiert wurde, den Verlustverlauf von $F_{i}$ vorherzusagen.

Moderne Variationen des Gradienten-Boostings beinhalten auch die zweite Ableitung (Hessisch) des Verlusts in ihrer Berechnung.

Entscheidungsbaum werden häufig als schwache Modelle beim Gradienten-Boosting verwendet. Weitere Informationen finden Sie unter Farbverlauf-Boosting (Entscheidung).

Farbverlauf-Boosted (Bäume) (GBT)

#df

Eine Art von Entscheidungswald, in dem:

I

Inferenzpfad

#df

In einem Entscheidungsbaum, während Inferenz, die Route ein bestimmtes Beispiel von der Wurzel zu anderen Bedingungen, die mit einem Blatt endet. Im folgenden Entscheidungsbaum zeigen die dickeren Pfeile beispielsweise den Inferenzpfad für ein Beispiel mit den folgenden Featurewerten:

  • x = 7
  • y = 12
  • z = -3

Der Inferenzpfad in der folgenden Abbildung durchlaufen drei Bedingungen, bevor das Blatt erreicht wird (Zeta).

Ein Entscheidungsbaum mit vier Bedingungen und fünf Blättern.
          Die Stammbedingung ist (x > 0). Da die Antwort „Ja“ ist, wird der Inferenzpfad vom Stamm zur nächsten Bedingung (y > 0) übertragen.
          Da die Antwort „Ja“ ist, wird der Inferenzpfad zur nächsten Bedingung weitergeleitet (z > 0). Da die Antwort „Nein“ lautet, wird der Inferenzpfad an seinen Terminalknoten übertragen, also das Blatt (Zeta).

Die drei dicken Pfeile stehen für den Inferenzpfad.

Informationsgewinn

#df

In Entscheidungswäldern ist die Differenz zwischen der Entropie eines Knotens und der gewichteten Entropie der untergeordneten Knoten nach Anzahl der Beispiele. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.

Betrachten Sie zum Beispiel die folgenden Entropiewerte:

  • Entropie des übergeordneten Knotens = 0.6
  • Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
  • Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1

Somit befinden sich 40% der Beispiele in einem untergeordneten Knoten und 60% befinden sich in dem anderen untergeordneten Knoten. Beispiele:

  • Gewichtete Entropiesumme von untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Der Gewinn an Informationen beträgt also:

  • Informationszunahme = Entropie des übergeordneten Knotens - gewichtete Entropie der untergeordneten Knoten
  • Informationsgewinn = 0,6 – 0,14 = 0,46

Die meisten Splitter versuchen, Bedingungen zu erstellen, um den Informationsgewinn zu maximieren.

Eingegebenen Zustand

#df

In einem Entscheidungsbaum eine Bedingung, mit der auf das Vorhandensein eines Elements in einer Gruppe von Elementen getestet wird. Hier sehen Sie ein Beispiel für eine „set“-Bedingung:

  house-style in [tudor, colonial, cape]

Wenn der Wert des Featuretyps im Hausstil tudor oder colonial oder cape ist, wird diese Bedingung mit „Ja“ ausgewertet. Wenn der Wert der Funktion im Hausstil etwas anderes ist (z. B. ranch), wird diese Bedingung mit „Nein“ ausgewertet.

Eingegebene Bedingungen führen in der Regel zu effizienteren Entscheidungsstrukturen als Bedingungen, die One-Hot-codierte Funktionen testen.

L

Blatt

#df

Jeder Endpunkt in einem Entscheidungsbaum. Im Gegensatz zu einer Bedingung wird bei einem Blatt kein Test durchgeführt. Ein Blatt ist vielmehr eine mögliche Vorhersage. Ein Blatt ist auch der Terminalknoten eines Inferenzpfads.

Der folgende Entscheidungsbaum enthält beispielsweise drei Blätter:

Ein Entscheidungsbaum mit zwei Bedingungen, die zu drei Blättern führen.

N

Knoten (Entscheidungsbaum)

#df

In einem Entscheidungsbaum jede Bedingung oder jedes Blatt

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern.

nicht binäre Bedingung

#df

Eine Bedingung, die mehr als zwei mögliche Ergebnisse enthält. Die folgende nicht binäre Bedingung enthält beispielsweise drei mögliche Ergebnisse:

Eine Bedingung (number_of_legs = ?), die zu drei möglichen Ergebnissen führt. Ein Ergebnis (number_of_legs = 8) führt zu einem Blatt namens Spider. Ein zweites Ergebnis (number_of_legs = 4) führt zu einem Blatt namens „dog“. Ein drittes Ergebnis (number_of_legs = 2) führt zu einem Blatt mit dem Namen Pinguin.

O

schräge Bedingung

#df

In einem Entscheidungsbaum eine Bedingung, die mehr als ein Feature umfasst. Wenn Höhe und Breite z. B. beide Merkmale sind, ist die Bedingung schräg:

  height > width

Kontrast: Auf die Achse ausgerichtete Bedingung

Out-of-Bag-Bewertung (OOB-Bewertung)

#df

Ein Mechanismus zur Bewertung der Qualität eines Entscheidungswaldes. Dazu wird jeder Entscheidungsbaum mit den Beispielen nicht verglichen, die beim Training des Entscheidungsbaums verwendet werden. Im folgenden Diagramm wird beispielsweise gezeigt, dass das System jeden Entscheidungsbaum mit etwa zwei Dritteln der Beispiele trainiert und dann mit dem verbleibenden Drittel vergleicht.

Ein Entscheidungsbaum mit drei Entscheidungsstrukturen
          Ein Entscheidungsbaum wird für zwei Drittel der Beispiele trainiert und verwendet dann das verbleibende Drittel für die OOB-Bewertung.
          Ein zweiter Entscheidungsbaum wird für ein anderes Drittel der Beispiele trainiert und verwendet ein anderes Drittel für die OOB-Bewertung als der vorherige Entscheidungsbaum.

Die Out-of-Bag-Bewertung ist eine recheneffiziente und konservative Näherung des Kreuzvalidierungsverfahrens. Bei der Kreuzvalidierung wird ein Modell für jede Kreuzvalidierungsrunde trainiert (z. B. werden zehn Modelle in einer zehnfachen Kreuzvalidierung trainiert). Bei der OOB-Bewertung wird ein einzelnes Modell trainiert. Da bei Bagging während des Trainings einige Daten aus jedem Baum zurückgehalten werden, können bei der OOB-Bewertung diese Daten zur ungefähren Kreuzvalidierung verwendet werden.

P

Wichtigkeit der Variablen für verschiedene Varianten

#df

Ein Typ von wichtiger Wichtigkeit, mit der der Anstieg des Vorhersagefehlers eines Modells nach der Änderung der Featurewerte ausgewertet wird. Die Wichtigkeit einer Variablen zur Änderung ist ein modellunabhängiger Messwert.

R

Random Forest

#df

Ein Ensemble von Entscheidungsbäumen, in denen jeder Entscheidungsbaum mit einem bestimmten zufälligen Geräusch trainiert wird, z. B. Bagging.

Zufällige Wälder sind eine Art von Entscheidungswäldern.

root

#df

Den ursprünglichen Knoten (die erste Bedingung) in einem Entscheidungsbaum. Gemäß Konvention wird die Wurzel in Diagrammen am Anfang des Entscheidungsbaums dargestellt. Beispiel:

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern. Die Startbedingung (x > 2) ist der Stamm.

S

Stichprobennahme und Ersatz

#df

Eine Methode zum Auswählen von Elementen aus einer Reihe möglicher Elemente, bei denen ein Element mehrmals ausgewählt werden kann. Der Ausdruck „mit Ersatz“ bedeutet, dass das ausgewählte Element nach jeder Auswahl an den Pool möglicher Elemente zurückgegeben wird. Umgekehrt heißt das Verfahren ohne Ersatz, dass ein mögliches Element nur einmal ausgewählt werden kann.

Beispiel:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Angenommen, das System wählt nach dem Zufallsprinzip fig als erstes Element aus. Wenn Sie die Stichprobenerhebung als Ersatz verwenden, wählt das System das zweite Element aus dem folgenden Satz aus:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ja, die Einstellungen sind identisch. Das System kann also möglicherweise noch einmal fig auswählen.

Wenn Sie die Probenahme ohne Ersatz nutzen, kann eine Stichprobe nach der Auswahl nicht noch einmal ausgewählt werden. Wenn das System beispielsweise fig zufällig als erste Stichprobe auswählt, kann fig nicht noch einmal ausgewählt werden. Deshalb wählt das System die zweite Stichprobe aus der reduzierten Gruppe aus:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Schrumpfung

#df

Ein Hyperparameter-Wert im Farbverlauf-Boosting, der die Überanpassung steuert. Die Verkleinerung beim Gradienten-Boosting ähnelt der Lernrate beim Gradientenabstieg. Die Verkleinerung ist ein Dezimalwert zwischen 0,0 und 1,0. Ein niedrigerer Wert zur Verkleinerung reduziert die Überanpassung um mehr als einen größeren.

split

#df

In einem Entscheidungsbaum ein anderer Name für eine Bedingung.

Splitter

#df

Beim Trainieren eines Entscheidungsbaums ist die Routine (und der Algorithmus) dafür verantwortlich, die beste Bedingung in jedem Knoten zu finden.

D

Test

#df

In einem Entscheidungsbaum ein anderer Name für eine Bedingung.

Grenzwert (für Entscheidungsbäume)

#df

In einer Achsenausrichtung wird der Wert, mit dem ein Feature verglichen wird. Beispiel: 75 ist der Grenzwert in der folgenden Bedingung:

grade >= 75

V

Wichtigkeit von Variablen

#df

Ein Satz von Bewertungen, die die relative Wichtigkeit jedes Features für das Modell angeben.

Ein Beispiel ist ein Entscheidungsbaum, mit dem Hauspreise geschätzt werden. Angenommen, dieser Entscheidungsbaum verwendet drei Funktionen: Größe, Alter und Stil. Wenn für die drei Features eine Variable mit veränderlicher Wichtigkeit als {size=5.8, Age=2.5, style=4.7} berechnet wird, ist die Größe für den Entscheidungsbaum wichtiger als Alter oder Stil.

Es gibt verschiedene Messwerte für die Wichtigkeit von Variablen, die ML-Experten über verschiedene Aspekte von Modellen informieren können.

W

Weisheit der Menge

#df

Die Idee, die Meinungen oder Schätzungen einer großen Gruppe von Menschen (der Menge) zu ermitteln, erzeugt oft erstaunlich gute Ergebnisse. Nehmen wir als Beispiel ein Spiel, bei dem Nutzer die Anzahl der in einem großen Glas gefüllten Jelly Beans erraten. Obwohl die meisten einzelnen Schätzungen ungenau sind, hat sich der Durchschnitt aller Annahmen empirisch gezeigt, dass sie der tatsächlichen Anzahl der Bohnen im Becher überraschend ähnlich sind.

Ensembles sind Softwaresoftware-Analoges zur Wissensvermittlung. Selbst wenn einzelne Modelle extrem ungenaue Vorhersagen treffen, erzeugt die durchschnittliche Vorhersage vieler Modelle oft erstaunlich gute Vorhersagen. Ein einzelner Entscheidungsbaum kann beispielsweise schlechte Vorhersagen liefern, aber ein Entscheidungsbaum trifft oft sehr gute Vorhersagen.