Glossar zum maschinellen Lernen: Entscheidungswald

Diese Seite enthält Glossarbegriffe zu Decision Forests. Alle Glossarbegriffe finden Sie hier.

A

Attribut-Sampling

#df

Taktik zum Trainieren einer Entscheidungsstruktur, bei der jeder Entscheidungsbaum beim Lernen der Bedingung nur eine zufällige Teilmenge möglicher Features berücksichtigt. Im Allgemeinen wird für jeden Knoten eine unterschiedliche Teilmenge von Features erfasst. Im Gegensatz dazu werden beim Trainieren eines Entscheidungsbaums ohne Attributabtastung alle möglichen Merkmale für jeden Knoten berücksichtigt.

Bedingung an Achsen ausgerichtet

#df

In einem Entscheidungsbaum eine Bedingung, die nur ein einzelnes Feature enthält. Wenn beispielsweise die Fläche ein Element ist, dann ist die folgende Bedingung auf Achse ausgerichtet:

area > 200

Stellen Sie einen Kontrast mit der Schräglage her.

B

Bagging

#df

Eine Methode zum Trainieren eines Ensembles, bei der jedes einzelne Modell anhand einer zufälligen Teilmenge von Trainingsbeispielen trainiert, die mit Ersatz errechnet wurden. Eine Random Forest ist beispielsweise eine Sammlung von Entscheidungsbäumen, die mit Bagging trainiert werden.

Der Begriff Bagging steht für bootstrap aggregat (Bagging).

Binärbedingung

#df

In einem Entscheidungsbaum eine Bedingung, die nur zwei mögliche Ergebnisse hat, normalerweise ja oder nein. Das folgende Beispiel ist eine binäre Bedingung:

temperature >= 100

Stellen Sie einen Kontrast mit einer nicht binären Bedingung her.

C

Bedingung

#df

In einem Entscheidungsbaum jeder Knoten, der einen Ausdruck auswertet. Der folgende Teil eines Entscheidungsbaums enthält beispielsweise zwei Bedingungen:

Ein Entscheidungsbaum, der aus zwei Bedingungen besteht: (x > 0) und (y > 0)

Eine Bedingung wird auch als Split oder Test bezeichnet.

Kontrast der Bedingung mit Blatt.

Weitere Informationen

D

Entscheidungswald

#df

Ein Modell, das aus mehreren Entscheidungsbäumen erstellt wurde. Eine Entscheidungsstruktur trifft die Vorhersagen ihrer Entscheidungsbäume, um eine Vorhersage zu treffen. Zu den beliebtesten Arten von Entscheidungsstrukturen gehören Random Forests und Gradient Boosted Trees.

Entscheidungsbaum

#df

Ein Modell für überwachtes Lernen, das aus einer Reihe von hierarchisch organisierten conditions und conditions besteht. Das folgende Beispiel zeigt einen Entscheidungsbaum:

Ein Entscheidungsbaum, der aus vier hierarchisch angeordneten Bedingungen besteht, die zu fünf Blättern führen.

E

Entropie

#df

In der Informationstheorie wird beschrieben, wie unvorhersehbar eine Wahrscheinlichkeitsverteilung ist. Alternativ wird die Entropie auch definiert, wie viele Informationen in jedem Beispiel enthalten sind. Eine Verteilung hat die höchstmögliche Entropie, wenn alle Werte einer zufälligen Variablen gleich wahrscheinlich sind.

Die Entropie einer Menge mit den beiden möglichen Werten „0“ und „1“ (z. B. die Labels in einem binären Klassifizierungsproblem) wird anhand der folgenden Formel berechnet:

  H = -p log p - q log q = -p log p - (1-p) * log (1-p)

Dabei gilt:

  • H ist die Entropie.
  • p ist der Anteil an „1“-Beispielen.
  • q ist der Anteil an „0“-Beispielen. Beachten Sie, dass q = (1 - p)
  • log ist in der Regel log2. In diesem Fall ist die Entropie ein Bit.

Nehmen wir beispielsweise Folgendes an:

  • 100 Beispiele enthalten den Wert „1“
  • 300 Beispiele enthalten den Wert „0“

Daher ist der Entropiewert:

  • p = 0,25
  • q = 0,75
  • H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 Bit pro Beispiel

Ein perfekt ausbalancierter Satz (z. B. 200 „0“ und 200 „1“) hätte eine Entropie von 1, 0 Bit pro Beispiel. Wenn eine Menge unausgewogen ist, bewegt sich seine Entropie in Richtung 0,0.

In Entscheidungsbäumen hilft die Entropie beim Formulieren eines Informationsgewinns, damit der Splitter die Bedingungen während des Wachstums eines Klassifizierungsentscheidungsbaums auswählen kann.

Entropie vergleichen mit:

Die Entropie wird oft als Shannon-Entropie bezeichnet.

F

Merkmalwichtigkeiten

#df

Synonym für variable Bedeutungen.

G

Gini-Unreinheit

#df

Ein Messwert, der der Entropie ähnelt. Splitter verwenden Werte, die entweder von der gini-Unreinheit oder von Entropie abgeleitet sind, um Bedingungen für Entscheidungsbäume zu erstellen. Informationsgewinn wird aus der Entropie abgeleitet. Es gibt keinen allgemein akzeptierten äquivalenten Begriff für den von der gini-Unreinheit abgeleiteten Messwert. Dieser unbenannte Messwert ist jedoch genauso wichtig wie der Informationsgewinn.

Die Gini-Unreinheit wird auch als Gini-Index oder einfach gini bezeichnet.

Gradienten-Boosting-Bäume (GBT)

#df

Eine Art von Entscheidungsgesamtheit, in der:

Gradient-Boosting

#df

Trainingsalgorithmus, mit dem schwache Modelle trainiert werden, um die Qualität eines starken Modells iterativ zu verbessern (den Verlust zu reduzieren). Ein schwaches Modell kann beispielsweise ein lineares oder ein kleines Entscheidungsbaummodell sein. Das starke Modell wird dann die Summe aller zuvor trainierten schwachen Modelle.

In der einfachsten Form des Gradienten-Boosting wird bei jeder Iteration ein schwaches Modell trainiert, um den Verlustgrad des starken Modells vorherzusagen. Anschließend wird die Ausgabe des starken Modells durch Subtrahieren des vorhergesagten Gradienten aktualisiert, ähnlich wie beim Gradientenabstieg.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

Dabei gilt:

  • $F_{0}$ ist das starke Startmodell.
  • $F_{i+1}$ ist das nächste starke Modell.
  • $F_{i}$ ist das derzeit starke Modell.
  • $\xi$ ist ein Wert zwischen 0,0 und 1,0, der als Schrumpfung bezeichnet wird und der Lernrate beim Gradientenabstieg entspricht.
  • $f_{i}$ ist das schwache Modell, das darauf trainiert wurde, den Verlustgrad von $F_{i}$ vorherzusagen.

Bei modernen Varianten des Gradienten-Boosting wird auch die zweite Ableitung des Verlusts (Hessisches) zur Berechnung verwendet.

Entscheidungsbäume werden häufig als schwache Modelle beim Gradienten-Boosting verwendet. Weitere Informationen finden Sie unter Entscheidungsbäume mit Farbverlauf.

I

Inferenzpfad

#df

In einem Entscheidungsbaum wird während der Inferenz die Route eines bestimmten Beispiels vom Stamm zu anderen Bedingungen geführt, die mit einem Blatt endet. Im folgenden Entscheidungsbaum zeigen die dickeren Pfeile beispielsweise den Inferenzpfad für ein Beispiel mit den folgenden Featurewerten an:

  • x = 7
  • y = 12
  • z = -3

Der Inferenzpfad in der folgenden Abbildung durchläuft drei Bedingungen, bevor er das Blatt (Zeta) erreicht.

Ein Entscheidungsbaum, der aus vier Bedingungen und fünf Blättern besteht.
          Die Stammbedingung ist (x > 0). Da die Antwort „Ja“ lautet, geht der Inferenzpfad von der Wurzel zur nächsten Bedingung (y > 0).
          Da die Antwort „Ja“ lautet, geht der Inferenzpfad dann zur nächsten Bedingung (z > 0). Da die Antwort „Nein“ lautet, führt der Inferenzpfad zu seinem Terminalknoten, dem Blatt (Zeta).

Die drei dicken Pfeile zeigen den Ableitungspfad an.

Informationsgewinn

#df

In Entscheidungsstrukturen die Differenz zwischen der Entropie eines Knotens und der gewichteten Summe (nach Anzahl der Beispiele) der Entropie seiner untergeordneten Knoten. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.

Betrachten Sie beispielsweise die folgenden Entropiewerte:

  • Entropie des übergeordneten Knotens = 0,6
  • Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
  • Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1

40% der Beispiele befinden sich also in einem untergeordneten Knoten und 60% im anderen untergeordneten Knoten. Beispiele:

  • Summe der gewichteten Entropie der untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Der Informationsgewinn ist also:

  • Informationsgewinn = Entropie des übergeordneten Knotens - gewichtete Entropiesumme der untergeordneten Knoten
  • Informationsgewinn = 0,6 - 0,14 = 0,46

Die meisten Splitter versuchen, Bedingungen zu schaffen, die den Informationsgewinn maximieren.

Eingestellte Bedingung

#df

Eine Bedingung in einem Entscheidungsbaum, mit der geprüft wird, ob ein Element in einer Gruppe von Elementen vorhanden ist. Das folgende Beispiel zeigt eine bereits festgelegte Bedingung:

  house-style in [tudor, colonial, cape]

Wenn bei der Inferenz der Wert des Features des Hausstils tudor, colonial oder cape ist, wird diese Bedingung mit „Ja“ ausgewertet. Wenn der Wert des hausinternen Elements etwas anderes ist (z. B. ranch), wird diese Bedingung mit „Nein“ ausgewertet.

Setzte Bedingungen führen in der Regel zu effizienteren Entscheidungsbäumen als Bedingungen, bei denen One-Hot-codierte Features getestet werden.

L

Blatt

#df

Beliebiger Endpunkt in einem Entscheidungsbaum Im Gegensatz zu einer Bedingung führt ein Blatt keinen Test durch. Vielmehr ist ein Blatt eine mögliche Vorhersage. Ein Blatt ist auch der Terminalknoten eines Inferenzpfads.

Der folgende Entscheidungsbaum enthält beispielsweise drei Blätter:

Ein Entscheidungsbaum mit zwei Bedingungen, die zu drei Blättern führen.

N

Knoten (Entscheidungsbaum)

#df

In einem Entscheidungsbaum jede Bedingung oder ein Blatt

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern.

nichtbinäre Bedingung

#df

Eine Bedingung mit mehr als zwei möglichen Ergebnissen. Die folgende nicht binäre Bedingung beispielsweise enthält drei mögliche Ergebnisse:

Eine Bedingung (number_of_legs = ?), die zu drei möglichen Ergebnissen führt. Ein Ergebnis (number_of_legs = 8) führt zu einem Blatt namens Spider. Ein zweites Ergebnis (number_of_legs = 4) führt zu einem Blatt namens „dog“. Ein drittes Ergebnis (number_of_legs = 2) führt zu einem Blatt namens „penguin“.

O

schräge Zustand

#df

In einem Entscheidungsbaum eine Bedingung, die mehr als ein Feature umfasst. Wenn beispielsweise Höhe und Breite beide Elemente sind, ist die folgende schräge Bedingung:

  height > width

Im Kontrast zu einer auf Achse ausgerichteten Bedingung stehen.

Out-of-Bag-Bewertung (OOB-Bewertung)

#df

Ein Mechanismus zur Bewertung der Qualität einer Entscheidungsstruktur, indem jeder Entscheidungsbaum mit den Beispielen verglichen wird, die nicht während des Trainings dieses Entscheidungsbaums verwendet werden. Im folgenden Diagramm sehen Sie beispielsweise, dass das System jeden Entscheidungsbaum für etwa zwei Drittel der Beispiele trainiert und dann anhand des verbleibenden Drittels der Beispiele auswertet.

Entscheidungsbaum, bestehend aus drei Entscheidungsbäumen
          Ein Entscheidungsbaum trainiert mit zwei Dritteln der Beispiele und verwendet dann das verbleibende Drittel für die OOB-Bewertung.
          Ein zweiter Entscheidungsbaum trainiert auf anderen zwei Dritteln der Beispiele als der vorherige Entscheidungsbaum und verwendet dann ein anderes Drittel für die OOB-Bewertung als der vorherige Entscheidungsbaum.

Die Out-of-Bag-Bewertung ist eine recheneffiziente und konservative Näherung des Kreuzvalidierungsmechanismus. Bei der Kreuzvalidierung wird für jede Kreuzvalidierungsrunde ein Modell trainiert (z. B. werden 10 Modelle in einer zehnfachen Kreuzvalidierung trainiert). Bei der OOB-Bewertung wird ein einzelnes Modell trainiert. Da beim Bagging während des Trainings einige Daten von jedem Baum bei der OOB-Bewertung berücksichtigt werden, kann die Kreuzvalidierung näherungsweise anhand dieser Daten ermittelt werden.

P

Bedeutungen von Permutationsvariablen

#df

Typ der Variablenwichtigkeit, der die Zunahme des Vorhersagefehlers eines Modells nach der Änderung der Werte des Features bewertet. Die Bedeutung von Permutationvariablen ist ein modellunabhängiger Messwert.

R

Random Forest

#df

Eine Gruppe von Entscheidungsbäumen, in denen jeder Entscheidungsbaum mit einem bestimmten Zufallsrauschen wie Bagging trainiert wird.

Random Forests sind eine Art von Entscheidungsstruktur.

root

#df

Startknoten (die erste Bedingung) in einem Entscheidungsbaum. Konventionsgemäß wird bei Diagrammen die Wurzel an der Spitze des Entscheidungsbaums platziert. Beispiel:

Ein Entscheidungsbaum mit zwei Bedingungen und drei Blättern. Die Startbedingung (x > 2) ist die Stammbedingung.

S

Stichprobennahme mit Ersatz

#df

Methode zum Auswählen von Elementen aus einer Reihe von möglichen Elementen, bei der dasselbe Element mehrmals ausgewählt werden kann. Der Ausdruck "mit Ersatz" bedeutet, dass das ausgewählte Element nach jeder Auswahl an den Pool der möglichen Elemente zurückgegeben wird. Die umgekehrte Methode, Stichproben ohne Ersatz, bedeutet, dass ein mögliches Element nur einmal ausgewählt werden kann.

Betrachten Sie zum Beispiel die folgende Obstsorte:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Angenommen, das System wählt fig nach dem Zufallsprinzip als erstes Element aus. Wenn Sie die Stichprobenerhebung mit Ersatz verwenden, wählt das System das zweite Element aus der folgenden Gruppe aus:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Ja, das ist derselbe Wert wie zuvor, sodass das System möglicherweise noch einmal fig auswählen könnte.

Wenn Sie eine Stichprobe ohne Ersatz verwenden, kann eine Stichprobe nach der Auswahl nicht noch einmal ausgewählt werden. Wenn das System beispielsweise fig nach dem Zufallsprinzip als erste Stichprobe auswählt, kann fig nicht noch einmal ausgewählt werden. Daher wählt das System die zweite Stichprobe aus der folgenden (reduzierten) Menge aus:

fruit = {kiwi, apple, pear, cherry, lime, mango}

verkleinert

#df

Ein Hyperparameter im Gradienten-Boosting, der die Überanpassung steuert. Die Verkleinerung beim Gradienten-Boosting ist analog zur Lernrate beim Gradientenabstieg. Die Verkleinerung ist ein Dezimalwert zwischen 0,0 und 1,0. Ein niedrigerer Verkleinerungswert verringert eine Überanpassung mehr als ein größerer Verkleinerungswert.

split

#df

In einem Entscheidungsbaum ein anderer Name für eine Bedingung

Splitter

#df

Beim Training eines Entscheidungsbaums sind die Routine (und der Algorithmus) für die Suche nach der besten Bedingung auf jedem Knoten verantwortlich.

T

Test

#df

In einem Entscheidungsbaum ein anderer Name für eine Bedingung

Grenzwert (für Entscheidungsbäume)

#df

In einer achsenbasierten Bedingung der Wert, mit dem ein Element verglichen wird Beispielsweise ist 75 der Schwellenwert in der folgenden Bedingung:

grade >= 75

V

unterschiedliche Bedeutungen

#df

Eine Reihe von Bewertungen, die die relative Bedeutung der einzelnen Features für das Modell angeben.

Angenommen, Sie haben einen Entscheidungsbaum zur Schätzung von Hauspreisen. Angenommen, dieser Entscheidungsbaum verwendet drei Funktionen: Größe, Alter und Stil. Wenn eine Gruppe variabler Wichtigkeiten für die drei Elemente mit {size=5.8, age=2.5, style=4.7} berechnet wird, ist die Größe für den Entscheidungsbaum wichtiger als Alter oder Stil.

Es gibt unterschiedliche Messwerte für die veränderliche Wichtigkeit, die ML-Experten über verschiedene Aspekte von Modellen informieren können.

W

Weisheit der Menge

#df

Die Idee, dass die Durchschnittsermittlung der Meinungen oder Schätzungen einer großen Personengruppe („die Menge“) oft erstaunlich gute Ergebnisse liefert. Nehmen wir als Beispiel ein Spiel, bei dem Leute die Anzahl der in ein großes Glas verpackten Jelly Beans erraten. Obwohl die meisten einzelnen Vermutungen ungenau sein werden, ist der Durchschnitt aller Vermutungen empirisch erstaunlich nahe an der tatsächlichen Anzahl der Jelly Beans im Becher gelegen.

Ensembles sind Software-Analoge zur Weisheit der Massen. Selbst wenn einzelne Modelle extrem ungenaue Vorhersagen treffen, führt die Durchschnittsermittlung der Vorhersagen vieler Modelle oft zu erstaunlich guten Vorhersagen. Obwohl beispielsweise ein einzelner Entscheidungsbaum schlechte Vorhersagen macht, liefert eine Entscheidungsstruktur oft sehr gute Vorhersagen.