Glossar zum maschinellen Lernen: Entscheidungswald

Diese Seite enthält Glossarbegriffe zu Entscheidungsstrukturen. Alle Glossarbegriffe finden Sie hier.

A

Stichprobenerhebung für Attribute

#df

Taktik zum Trainieren einer Entscheidungsstruktur, bei der jeder Entscheidungsbaum beim Lernen der Bedingung nur eine zufällige Teilmenge der möglichen Features berücksichtigt. Im Allgemeinen wird für jeden Knoten eine andere Teilmenge von Features verwendet. Im Gegensatz dazu werden beim Training eines Entscheidungsbaums ohne Attributstichproben alle möglichen Merkmale für jeden Knoten berücksichtigt.

Bedingung für Achsenausrichtung

#df

In einem Entscheidungsbaum eine Bedingung, die nur ein einziges Feature umfasst. Wenn die Fläche beispielsweise ein Element ist, dann ist die folgende Bedingung auf Achse ausgerichtet:

area > 200

Im Kontrast zu einer schrägen Bedingung stehen.

B

Bagging

#df

Eine Methode zum Trainieren eines ensemble, bei der jedes einzelne Modell anhand einer zufälligen Teilmenge von Trainingsbeispielen trainiert wird, mit der Ersetzung zusammengestellt. Ein Random Forest ist beispielsweise eine Sammlung von Entscheidungsbäumen, die mit Bagging trainiert wurden.

Die Abkürzung Bagging steht für Bootstrap-aggregating.

Binärbedingung

#df

In einem Entscheidungsbaum eine Bedingung, die nur zwei mögliche Ergebnisse hat, in der Regel ja oder nein. Das folgende Beispiel zeigt eine binäre Bedingung:

temperature >= 100

Im Gegensatz zu einer nicht binären Bedingung

C

Bedingung

#df

In einem Entscheidungsbaum jeder Knoten, der einen Ausdruck auswertet. Der folgende Teil eines Entscheidungsbaums enthält beispielsweise zwei Bedingungen:

Ein Entscheidungsbaum, der aus zwei Bedingungen besteht: (x > 0) und (y > 0).

Eine Bedingung wird auch als Split oder Test bezeichnet.

Kontrastbedingung mit Blatt.

Weitere Informationen

D

Entscheidungswald

#df

Ein Modell, das aus mehreren Entscheidungsbäumen erstellt wurde. Eine Entscheidungsstruktur trifft eine Vorhersage, indem die Vorhersagen ihrer Entscheidungsbäume aggregiert werden. Beliebte Arten von Entscheidungsstrukturen sind unter anderem Random Forests und Gradient Boosted Trees.

Entscheidungsbaum

#df

Modell für überwachtes Lernen, das aus einer Reihe von conditions und hierarchisch organisierten conditions besteht. Das folgende Beispiel zeigt einen Entscheidungsbaum:

Ein Entscheidungsbaum, der aus vier hierarchisch angeordneten Bedingungen besteht, die zu fünf Blättern führen.

E

Entropie

#df

In der Informationstheorie wird beschrieben, wie unvorhersehbar eine Wahrscheinlichkeitsverteilung ist. Alternativ ist Entropie auch so definiert, wie viele Informationen jedes Beispiel enthält. Eine Verteilung hat die höchstmögliche Entropie, wenn alle Werte einer Zufallsvariablen gleich wahrscheinlich sind.

Die Entropie eines Satzes mit den beiden möglichen Werten „0“ und „1“ (z. B. die Labels in einem binären Klassifizierungsproblem) errechnet sich aus der folgenden Formel:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

wobei

  • H ist die Entropie.
  • p ist der Anteil an „1“-Beispielen.
  • q ist der Anteil der „0“-Beispiele. Beachten Sie, dass q = (1 - p) ist.
  • log ist in der Regel log2. In diesem Fall ist die Entropieeinheit ein Bit.

Nehmen wir beispielsweise Folgendes an:

  • 100 Beispiele enthalten den Wert „1“
  • 300 Beispiele enthalten den Wert „0“

Daher lautet der Entropiewert:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) − (0,75)log2(0,75) = 0,81 Bits pro Beispiel

Ein perfekt ausgeglichener Satz (z. B. 200 „0“ und 200 „1“) hätte eine Entropie von 1, 0 Bit pro Beispiel. Wenn ein Dataset unausgeglichener wird, bewegt sich seine Entropie in Richtung 0,0.

In Entscheidungsbäumen hilft die Entropie bei der Formulierung eines Informationsgewinns, damit der Splitter die Bedingungen während des Wachstums eines Klassifizierungsentscheidungsbaums auswählen kann.

Entropie vergleichen mit:

Die Entropie wird oft als Shannon-Entropie bezeichnet.

F

Merkmalwichtigkeiten

#df

Synonym für die Wichtigkeit von Variablen.

G

Gini-Verunreinigung

#df

Einen Messwert ähnlich wie Entropie. Splitter verwenden Werte, die entweder aus Gini-Steinung oder Entropie abgeleitet sind, um Bedingungen für Entscheidungsbäume für die Klassifizierung zu erstellen. Der Informationsgewinn wird aus der Entropie abgeleitet. Es gibt keinen allgemein akzeptierten äquivalenten Begriff für den Messwert, der von der gini-Verunreinigung abgeleitet wird. Dieser unbenannte Messwert ist jedoch genauso wichtig wie der Informationsgewinn.

Der Gini-Unreinheitsgrad wird auch als Gini-Index oder einfach Gini bezeichnet.

Gradient Boosted Trees (Entscheidungsbäume)

#df

Eine Art Entscheidungswald, in dem:

Gradientenverstärker

#df

Ein Trainingsalgorithmus, mit dem schwache Modelle trainiert werden, um die Qualität eines starken Modells iterativ zu verbessern (den Verlust zu reduzieren). Ein schwaches Modell kann beispielsweise ein lineares oder kleines Entscheidungsbaummodell sein. Das starke Modell wird dann die Summe aller zuvor trainierten schwachen Modelle.

In der einfachsten Form des Gradienten-Boosting wird bei jeder Iteration ein schwaches Modell trainiert, um den Verlustverlauf des starken Modells vorherzusagen. Anschließend wird die Ausgabe des starken Modells durch Subtrahieren des vorhergesagten Grades aktualisiert, ähnlich wie beim Gradientenabstieg.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

wobei

  • $F_{0}$ ist das starke Startmodell.
  • $F_{i+1}$ ist das nächste starke Modell.
  • $F_{i}$ ist das aktuell starke Modell.
  • $\xi$ ist ein Wert zwischen 0,0 und 1,0, der als Schrumpfung bezeichnet wird, der der Lernrate beim Gradientenabstieg entspricht.
  • $f_{i}$ ist das schwache Modell, das trainiert wurde, um den Verlustverlauf von $F_{i}$ vorherzusagen.

Moderne Variationen des Gradienten-Boosting beinhalten auch die zweite Ableitung (Hessisch) des Verlusts in ihrer Berechnung.

Entscheidungsbäume werden häufig als schwache Modelle im Gradienten-Boosting verwendet. Weitere Informationen finden Sie unter Gradienten-Boosted-Bäume (Entscheidungsstruktur).

I

Inferenzpfad

#df

In einem Entscheidungsbaum wird während der Inferenz die Route eines bestimmten Beispiels vom Stamm zu anderen Bedingungen ausgeführt, die mit einem Blatt enden. Im folgenden Entscheidungsbaum zeigen die dickeren Pfeile beispielsweise den Inferenzpfad für ein Beispiel mit den folgenden Featurewerten an:

  • x = 7
  • y = 12
  • z = -3

Der Inferenzpfad in der folgenden Abbildung durchläuft drei Bedingungen, bevor er das Blatt (Zeta) erreicht.

Ein Entscheidungsbaum, der aus vier Bedingungen und fünf Blättern besteht.
          Die Stammbedingung ist (x > 0). Da die Antwort „Ja“ lautet, führt der Inferenzpfad von der Stammbedingung zur nächsten Bedingung (y > 0).
          Da die Antwort „Ja“ lautet, geht der Inferenzpfad dann zur nächsten Bedingung (z > 0). Da die Antwort Nein ist, geht der Inferenzpfad zu seinem Endknoten, dem Blatt (Zeta).

Die drei dicke Pfeile zeigen den Ableitungspfad.

Informationsgewinn

#df

In Entscheidungswalds die Differenz zwischen der Entropie eines Knotens und der gewichteten Summe der Entropie seiner untergeordneten Knoten (nach Anzahl der Beispiele). Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.

Betrachten Sie beispielsweise die folgenden Entropiewerte:

  • Entropie des übergeordneten Knotens = 0,6
  • Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
  • Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1

Daher befinden sich 40% der Beispiele in einem untergeordneten Knoten und 60% im anderen untergeordneten Knoten. Beispiele:

  • Summe der gewichteten Entropie der untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Der Informationsgewinn lautet also:

  • Informationsgewinn = Entropie des übergeordneten Knotens - gewichtete Entropiesumme der untergeordneten Knoten
  • Informationsgewinn = 0,6 - 0,14 = 0,46

Die meisten Splitter versuchen, Bedingungen zu erstellen, die den Informationsgewinn maximieren.

In-Set-Bedingung

#df

In einem Entscheidungsbaum eine Bedingung, die prüft, ob ein Element in einer Gruppe von Elementen vorhanden ist. Das folgende Beispiel zeigt eine In-Set-Bedingung:

  house-style in [tudor, colonial, cape]

Wenn der Wert des Features „Hausstil“ während der Inferenz tudor, colonial oder cape lautet, wird diese Bedingung mit „Ja“ ausgewertet. Wenn der Wert des House-Style-Elements etwas anderes ist (z. B. ranch), wird diese Bedingung mit „Nein“ ausgewertet.

Festgelegte Bedingungen führen in der Regel zu effizienteren Entscheidungsbäumen als Bedingungen, bei denen One-Hot-codierte Features getestet werden.

L

Blatt

#df

Jeder Endpunkt in einem Entscheidungsbaum. Im Gegensatz zu einer condition führt ein Blatt keinen Test durch. Vielmehr ist ein Blatt eine mögliche Vorhersage. Ein Blatt ist auch der Terminalknoten eines Inferenzpfads.

Der folgende Entscheidungsbaum enthält beispielsweise drei Blätter:

Ein Entscheidungsbaum mit zwei Bedingungen, die zu drei Blättern führen.

N

Knoten (Entscheidungsbaum)

#df

In einem Entscheidungsbaum eine beliebige Bedingung oder ein Blatt.

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern.

nichtbinäre Bedingung

#df

Eine Bedingung mit mehr als zwei möglichen Ergebnissen. Die folgende nicht binäre Bedingung enthält beispielsweise drei mögliche Ergebnisse:

Eine Bedingung (number_of_legs = ?), die zu drei möglichen Ergebnissen führt. Ein Ergebnis (number_of_legs = 8) führt zu einem Blatt namens spider. Ein zweites Ergebnis (number_of_legs = 4) führt zu einem Blatt namens „dog“. Ein drittes Ergebnis (number_of_legs = 2) führt zu einem Blatt namens penguin.

O

schräge Zustand

#df

In einem Entscheidungsbaum eine Bedingung, die mehr als ein Feature umfasst. Wenn beispielsweise Höhe und Breite beide Merkmale sind, ist die folgende schräge Bedingung:

  height > width

Im Gegensatz zur Bedingung für Achsenausrichtung

Out-of-Bag-Bewertung (OOB-Bewertung)

#df

Mechanismus zur Bewertung der Qualität eines Entscheidungsbaums. Dazu wird jeder Entscheidungsbaum mit den Beispielen verglichen, die nicht während des Trainings dieses Entscheidungsbaums verwendet werden. Im folgenden Diagramm sehen Sie beispielsweise, dass das System jeden Entscheidungsbaum für etwa zwei Drittel der Beispiele trainiert und dann mit dem verbleibenden Drittel der Beispiele bewertet.

Eine Entscheidungsstruktur, die aus drei Entscheidungsbäumen besteht
          Ein Entscheidungsbaum trainiert mit zwei Dritteln der Beispiele und verwendet dann das verbleibende Drittel für die OOB-Bewertung.
          Ein zweiter Entscheidungsbaum trainiert mit anderen zwei Dritteln der Beispiele als der vorherige Entscheidungsbaum und verwendet dann ein anderes Drittel für die OOB-Bewertung als der vorherige Entscheidungsbaum.

Die Out-of-Bag-Bewertung ist eine recheneffiziente und konservative Annäherung an den Kreuzvalidierungsmechanismus. Bei der Kreuzvalidierung wird für jede Kreuzvalidierungsrunde ein Modell trainiert (z. B. werden zehn Modelle in einer zehnfachen Kreuzvalidierung trainiert). Bei der OOB-Bewertung wird ein einzelnes Modell trainiert. Da beim Bagging während des Trainings einige Daten von jedem Baum zurückgehalten werden, kann die OOB-Bewertung diese Daten für die ungefähre Kreuzvalidierung verwenden.

P

Wichtigkeit von Permutationenvariablen

#df

Typ von Variablenwichtigkeit, der die Zunahme des Vorhersagefehlers eines Modells bewertet, nachdem die Featurewerte geändert wurden. Die Wichtigkeit von Permutationsvariable ist eine modellunabhängige Metrik.

R

Random Forest

#df

Ein Ensemble von Entscheidungsbäumen, in denen jeder Entscheidungsbaum mit einem bestimmten Zufallsrauschen wie Bagging trainiert wird.

Random Forests sind eine Art von Entscheidungswald.

root

#df

Den Startknoten (die erste Bedingung) in einem Entscheidungsbaum. Konventionsgemäß setzen Diagramme die Wurzel an die Spitze des Entscheidungsbaums. Beispiel:

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern. Die Startbedingung (x > 2) ist die Stammbedingung.

S

Sampling mit Ersatz

#df

Methode zum Auswählen von Elementen aus einer Reihe von möglichen Elementen, bei der dasselbe Element mehrmals ausgewählt werden kann. Der Ausdruck "mit Ersetzung" bedeutet, dass das ausgewählte Element nach jeder Auswahl an den Pool der möglichen Elemente zurückgegeben wird. Die umgekehrte Methode, Stichproben ohne Ersatz, bedeutet, dass ein mögliches Element nur einmal ausgewählt werden kann.

Betrachten Sie zum Beispiel das folgende Obstsortiment:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Angenommen, das System wählt fig nach dem Zufallsprinzip als erstes Element aus. Wenn Sie die Stichprobenerhebung mit Ersatz verwenden, wählt das System das zweite Element aus der folgenden Gruppe aus:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ja, das ist dieselbe Einstellung wie zuvor, sodass das System möglicherweise noch einmal fig auswählen kann.

Wenn Sie die Stichprobenerhebung ohne Ersatz verwenden, kann eine Stichprobe nach der Auswahl nicht noch einmal ausgewählt werden. Wenn das System beispielsweise fig nach dem Zufallsprinzip als erste Stichprobe auswählt, kann fig nicht noch einmal ausgewählt werden. Daher wählt das System die zweite Stichprobe aus der folgenden (reduzierten) Menge aus:

fruit = {kiwi, apple, pear, cherry, lime, mango}

schrumpfen

#df

Ein Hyperparameter im Gradienten-Boosting, der die Überanpassung steuert. Die Verkleinerung beim Gradienten-Boosting erfolgt analog zur Lernrate beim Gradientenabstieg. Die Verkleinerung ist ein Dezimalwert zwischen 0,0 und 1,0. Ein niedrigerer Verkleinerungswert verringert eine Überanpassung mehr als ein größerer Verkleinerungswert.

split

#df

In einem Entscheidungsbaum ein anderer Name für eine Bedingung

Splitter

#df

Beim Trainieren eines Entscheidungsbaums sind die Routine (und der Algorithmus) für die Ermittlung der besten Bedingung an jedem Knoten zuständig.

T

Test

#df

In einem Entscheidungsbaum ein anderer Name für eine Bedingung

Grenzwert (für Entscheidungsbäume)

#df

In einer achsenbasierten Bedingung der Wert, mit dem ein Feature verglichen wird. Beispiel: 75 ist der Schwellenwert in der folgenden Bedingung:

grade >= 75

V

variable Wichtigkeit

#df

Ein Satz von Bewertungen, der die relative Bedeutung jedes Features für das Modell angibt.

Nehmen wir als Beispiel einen Entscheidungsbaum zur Schätzung der Hauspreise. Angenommen, dieser Entscheidungsbaum verwendet drei Funktionen: Größe, Alter und Stil. Wenn ein Satz von Variablenwichtigkeiten für die drei Merkmale mit {size=5.8, age=2.5, style=4.7} berechnet wird, ist die Größe für den Entscheidungsbaum wichtiger als Alter oder Stil.

Es gibt verschiedene Messwerte zur Variablenwichtigkeit, die ML-Experten über verschiedene Aspekte von Modellen informieren können.

W

Weisheit der Menge

#df

Die Idee, dass die Durchschnittsermittlung oder Schätzung einer großen Personengruppe ("die Menge") oft erstaunlich gute Ergebnisse liefert. Stellen Sie sich zum Beispiel ein Spiel vor, bei dem die Anzahl der in einem großen Becher verpackten Jelly Beans erraten wird. Obwohl die meisten einzelnen Vermutungen ungenau sein werden, ist der Durchschnitt aller Vermutungen empirisch erstaunlich nahe an der tatsächlichen Anzahl der Jelly Beans im Glas liegt.

Ensembles sind eine Software-Analogie zur Weisheit der Massen. Selbst wenn einzelne Modelle extrem ungenaue Vorhersagen treffen, führt die Durchschnittsermittlung der Vorhersagen vieler Modelle oft zu erstaunlich guten Vorhersagen. Obwohl beispielsweise ein individueller Entscheidungsbaum schlechte Vorhersagen treffen kann, trifft eine Entscheidungsgesamtstruktur oft sehr gute Vorhersagen.