Diese Seite enthält Begriffe aus dem Glossar mit Entscheidungswäldern. Alle Glossarbegriffe finden Sie hier.
A
Stichprobenerhebung
Eine Taktik zum Trainieren eines Entscheidungswaldes, in dem jeder Entscheidungsbaum beim Lernen der Bedingung nur eine zufällige Teilmenge möglicher Features berücksichtigt. Im Allgemeinen wird für jeden Knoten eine andere Teilmenge der Features verwendet. Im Gegensatz dazu werden beim Trainieren eines Entscheidungsbaums ohne Attributstichproben alle verfügbaren Features für jeden Knoten berücksichtigt.
Achsenausrichtung
In einem Entscheidungsbaum eine Bedingung, die nur ein einziges Feature umfasst. Wenn die Fläche beispielsweise ein Merkmal ist, ist die Bedingung an der Achse ausgerichtet:
area > 200
Kontrast: schräge Bedingung
B
Bagging
Eine Methode zum Trainieren eines Ensembles, bei dem jedes einzelne Modell anhand einer zufälligen Teilmenge von Trainingsbeispielen trainiert wird, die durch Stichproben ersetzt werden. Ein Zufallswald ist beispielsweise eine Sammlung von Entscheidungsbäumen, die mit Taschen trainiert wurden.
Beutel ist die Abkürzung für bootstrap aggregaing.
Binärbedingung
In einem Entscheidungsbaum eine Bedingung, die nur zwei mögliche Ergebnisse hat, normalerweise yes oder no. Beispiel: Eine binäre Bedingung ist beispielsweise:
temperature >= 100
Kontrast zum nicht binären Zustand
C
Bedingung
In einem Entscheidungsbaum ist jeder Knoten, der einen Ausdruck auswertet. Der folgende Teil eines Entscheidungsbaums enthält beispielsweise zwei Bedingungen:
Eine Bedingung wird auch als Split- oder Test bezeichnet.
Kontrastzustand mit Blatt.
Weitere Informationen
D
Entscheidungswald
Ein Modell, das aus mehreren Entscheidungsbaumen erstellt wurde. In einem Entscheidungswald werden Vorhersagen getroffen, indem die Vorhersagen ihres Entscheidungsbaums zusammengefasst werden. Zu den beliebten Arten von Entscheidungswäldern gehören Zufallswälder und Farben-Boosted-Bäume.
Entscheidungsbaum
Ein Modell für betreutes Lernen, das aus einer Reihe von Bedingungen besteht und hiernach verlässt. Hier ein Beispiel:
E
Entropie
In der Informationstheorie wird beschrieben, wie unvorhersehbar die Wahrscheinlichkeitsverteilung ist. Als Entropie wird auch definiert, wie viele Informationen jedes Beispiel enthält. Eine Verteilung hat die höchstmögliche Entropie, wenn alle Werte einer zufälligen Variablen wahrscheinlich sind.
Die Entropie eines Satzes mit den zwei möglichen Werten "0" und "1" (z. B. Labels in einem binären Klassifizierungsproblem) hat die folgende Formel:
H = -p log p - q log q = -p log p - (1-p) * log (1–p)
wobei
- H ist die Entropie.
- p ist der Anteil der „1“-Beispiele.
- q ist der Anteil der „0“-Beispiele. Beachten Sie, dass q = (1 – p) ist.
- log ist in der Regel log2. In diesem Fall ist die Entropieeinheit ein wenig.
Nehmen wir beispielsweise Folgendes an:
- 100 Beispiele enthalten den Wert „1“
- 300 Beispiele enthalten den Wert „0“
Der Entropiewert ist daher:
- p = 0,25
- q = 0,75
- H = (-0,25)log2(0,25) - (0,75)log2(0,75) = 0,81 Bit pro Beispiel
Ein Satz, der perfekt ausbalanciert wird (z. B. 200 "0" und 200 "1") hat eine Entropie von 1,0 Bit pro Beispiel. Wenn ein Satz ungleichmäßiger wird, wird die Entropie auf 0,0 reduziert.
In Entscheidungsbäumen hilft die Entropie dabei, Informationen zu gewinnen, damit der Splitter die Bedingungen während des Wachstums eines Klassifizierungsbaums auswählen kann.
Entropie vergleichen mit:
- gini unreinheit
- Verlustfunktion für Kreuzentropie
Entropie wird oft als Entropie von Shannon bezeichnet.
F
Wichtigkeit von Funktionen
Synonym für wichtige Wichtigkeiten.
G
gini unreinheit
Messwert, der Entropie ähnelt Splitter verwenden Werte, die aus Gini-Unreinheit oder Entropie abgeleitet sind, um Bedingungen für die Klassifizierung von Entscheidungsbäumen zu erstellen. Der Informationsgewinn wird aus der Entropie abgeleitet. Es gibt keine universell zulässige Bezeichnung für den Messwert, der aus „gini unrity“ abgeleitet wurde. Dieser unbenannte Messwert ist jedoch genauso wichtig wie der Informationsgewinn.
Die Gini-Unreinheit wird auch als Gini-Index oder einfach gini bezeichnet.
Gradient-Boosting
Ein Trainingsalgorithmus, bei dem schwache Modelle iterativ trainiert werden, um die Qualität eines starken Modells zu reduzieren (Verlust zu reduzieren). Ein schwaches Modell kann beispielsweise ein lineares oder kleines Entscheidungsbaummodell sein. Das starke Modell ergibt sich aus der Summe aller zuvor trainierten schwachen Modelle.
In der einfachsten Form des Gradienten-Boostings wird bei jedem Durchlauf ein schwaches Modell trainiert, um den Verlustverlauf des starken Modells vorherzusagen. Anschließend wird die Ausgabe des starken Modells durch Subtrahieren des vorhergesagten Farbverlaufs aktualisiert, ähnlich wie beim Gradientenabstieg.
wobei
- $F_{0}$ ist das erste starke Modell.
- $F_{i+1}$ ist das nächstbeste Modell.
- $F_{i}$ ist das derzeit starke Modell.
- $\xi$ ist ein Wert zwischen 0,0 und 1,0, genannt Shrinkage, der der Lernrate beim Gradientenabstieg entspricht.
- $f_{i}$ ist das schwache Modell, das dafür trainiert wurde, den Verlustverlauf von $F_{i}$ vorherzusagen.
Moderne Variationen des Gradienten-Boostings beinhalten auch die zweite Ableitung (Hessisch) des Verlusts in ihrer Berechnung.
Entscheidungsbaum werden häufig als schwache Modelle beim Gradienten-Boosting verwendet. Weitere Informationen finden Sie unter Farbverlauf-Boosting (Entscheidung).
Farbverlauf-Boosted (Bäume) (GBT)
Eine Art von Entscheidungswald, in dem:
- Das Training basiert auf dem Farbverlauf-Boosting.
- Das schwache Modell ist ein Entscheidungsbaum.
I
Inferenzpfad
In einem Entscheidungsbaum, während Inferenz, die Route ein bestimmtes Beispiel von der Wurzel zu anderen Bedingungen, die mit einem Blatt endet. Im folgenden Entscheidungsbaum zeigen die dickeren Pfeile beispielsweise den Inferenzpfad für ein Beispiel mit den folgenden Featurewerten:
- x = 7
- y = 12
- z = -3
Der Inferenzpfad in der folgenden Abbildung durchlaufen drei Bedingungen, bevor das Blatt erreicht wird (Zeta
).
Die drei dicken Pfeile stehen für den Inferenzpfad.
Informationsgewinn
In Entscheidungswäldern ist die Differenz zwischen der Entropie eines Knotens und der gewichteten Entropie der untergeordneten Knoten nach Anzahl der Beispiele. Die Entropie eines Knotens ist die Entropie der Beispiele in diesem Knoten.
Betrachten Sie zum Beispiel die folgenden Entropiewerte:
- Entropie des übergeordneten Knotens = 0.6
- Entropie eines untergeordneten Knotens mit 16 relevanten Beispielen = 0,2
- Entropie eines anderen untergeordneten Knotens mit 24 relevanten Beispielen = 0,1
Somit befinden sich 40% der Beispiele in einem untergeordneten Knoten und 60% befinden sich in dem anderen untergeordneten Knoten. Beispiele:
- Gewichtete Entropiesumme von untergeordneten Knoten = (0,4 * 0,2) + (0,6 * 0,1) = 0,14
Der Gewinn an Informationen beträgt also:
- Informationszunahme = Entropie des übergeordneten Knotens - gewichtete Entropie der untergeordneten Knoten
- Informationsgewinn = 0,6 – 0,14 = 0,46
Die meisten Splitter versuchen, Bedingungen zu erstellen, um den Informationsgewinn zu maximieren.
Eingegebenen Zustand
In einem Entscheidungsbaum eine Bedingung, mit der auf das Vorhandensein eines Elements in einer Gruppe von Elementen getestet wird. Hier sehen Sie ein Beispiel für eine „set“-Bedingung:
house-style in [tudor, colonial, cape]
Wenn der Wert des Featuretyps im Hausstil tudor
oder colonial
oder cape
ist, wird diese Bedingung mit „Ja“ ausgewertet. Wenn der Wert der Funktion im Hausstil etwas anderes ist (z. B. ranch
), wird diese Bedingung mit „Nein“ ausgewertet.
Eingegebene Bedingungen führen in der Regel zu effizienteren Entscheidungsstrukturen als Bedingungen, die One-Hot-codierte Funktionen testen.
L
Blatt
Jeder Endpunkt in einem Entscheidungsbaum. Im Gegensatz zu einer Bedingung wird bei einem Blatt kein Test durchgeführt. Ein Blatt ist vielmehr eine mögliche Vorhersage. Ein Blatt ist auch der Terminalknoten eines Inferenzpfads.
Der folgende Entscheidungsbaum enthält beispielsweise drei Blätter:
N
Knoten (Entscheidungsbaum)
In einem Entscheidungsbaum jede Bedingung oder jedes Blatt
nicht binäre Bedingung
Eine Bedingung, die mehr als zwei mögliche Ergebnisse enthält. Die folgende nicht binäre Bedingung enthält beispielsweise drei mögliche Ergebnisse:
O
schräge Bedingung
In einem Entscheidungsbaum eine Bedingung, die mehr als ein Feature umfasst. Wenn Höhe und Breite z. B. beide Merkmale sind, ist die Bedingung schräg:
height > width
Kontrast: Auf die Achse ausgerichtete Bedingung
Out-of-Bag-Bewertung (OOB-Bewertung)
Ein Mechanismus zur Bewertung der Qualität eines Entscheidungswaldes. Dazu wird jeder Entscheidungsbaum mit den Beispielen nicht verglichen, die beim Training des Entscheidungsbaums verwendet werden. Im folgenden Diagramm wird beispielsweise gezeigt, dass das System jeden Entscheidungsbaum mit etwa zwei Dritteln der Beispiele trainiert und dann mit dem verbleibenden Drittel vergleicht.
Die Out-of-Bag-Bewertung ist eine recheneffiziente und konservative Näherung des Kreuzvalidierungsverfahrens. Bei der Kreuzvalidierung wird ein Modell für jede Kreuzvalidierungsrunde trainiert (z. B. werden zehn Modelle in einer zehnfachen Kreuzvalidierung trainiert). Bei der OOB-Bewertung wird ein einzelnes Modell trainiert. Da bei Bagging während des Trainings einige Daten aus jedem Baum zurückgehalten werden, können bei der OOB-Bewertung diese Daten zur ungefähren Kreuzvalidierung verwendet werden.
P
Wichtigkeit der Variablen für verschiedene Varianten
Ein Typ von wichtiger Wichtigkeit, mit der der Anstieg des Vorhersagefehlers eines Modells nach der Änderung der Featurewerte ausgewertet wird. Die Wichtigkeit einer Variablen zur Änderung ist ein modellunabhängiger Messwert.
R
Random Forest
Ein Ensemble von Entscheidungsbäumen, in denen jeder Entscheidungsbaum mit einem bestimmten zufälligen Geräusch trainiert wird, z. B. Bagging.
Zufällige Wälder sind eine Art von Entscheidungswäldern.
root
Den ursprünglichen Knoten (die erste Bedingung) in einem Entscheidungsbaum. Gemäß Konvention wird die Wurzel in Diagrammen am Anfang des Entscheidungsbaums dargestellt. Beispiel:
S
Stichprobennahme und Ersatz
Eine Methode zum Auswählen von Elementen aus einer Reihe möglicher Elemente, bei denen ein Element mehrmals ausgewählt werden kann. Der Ausdruck „mit Ersatz“ bedeutet, dass das ausgewählte Element nach jeder Auswahl an den Pool möglicher Elemente zurückgegeben wird. Umgekehrt heißt das Verfahren ohne Ersatz, dass ein mögliches Element nur einmal ausgewählt werden kann.
Beispiel:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Angenommen, das System wählt nach dem Zufallsprinzip fig
als erstes Element aus.
Wenn Sie die Stichprobenerhebung als Ersatz verwenden, wählt das System das zweite Element aus dem folgenden Satz aus:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Ja, die Einstellungen sind identisch. Das System kann also möglicherweise noch einmal fig
auswählen.
Wenn Sie die Probenahme ohne Ersatz nutzen, kann eine Stichprobe nach der Auswahl nicht noch einmal ausgewählt werden. Wenn das System beispielsweise fig
zufällig als erste Stichprobe auswählt, kann fig
nicht noch einmal ausgewählt werden. Deshalb wählt das System die zweite Stichprobe aus der reduzierten Gruppe aus:
fruit = {kiwi, apple, pear, cherry, lime, mango}
Schrumpfung
Ein Hyperparameter-Wert im Farbverlauf-Boosting, der die Überanpassung steuert. Die Verkleinerung beim Gradienten-Boosting ähnelt der Lernrate beim Gradientenabstieg. Die Verkleinerung ist ein Dezimalwert zwischen 0,0 und 1,0. Ein niedrigerer Wert zur Verkleinerung reduziert die Überanpassung um mehr als einen größeren.
split
In einem Entscheidungsbaum ein anderer Name für eine Bedingung.
Splitter
Beim Trainieren eines Entscheidungsbaums ist die Routine (und der Algorithmus) dafür verantwortlich, die beste Bedingung in jedem Knoten zu finden.
D
Test
In einem Entscheidungsbaum ein anderer Name für eine Bedingung.
Grenzwert (für Entscheidungsbäume)
In einer Achsenausrichtung wird der Wert, mit dem ein Feature verglichen wird. Beispiel: 75 ist der Grenzwert in der folgenden Bedingung:
grade >= 75
V
Wichtigkeit von Variablen
Ein Satz von Bewertungen, die die relative Wichtigkeit jedes Features für das Modell angeben.
Ein Beispiel ist ein Entscheidungsbaum, mit dem Hauspreise geschätzt werden. Angenommen, dieser Entscheidungsbaum verwendet drei Funktionen: Größe, Alter und Stil. Wenn für die drei Features eine Variable mit veränderlicher Wichtigkeit als {size=5.8, Age=2.5, style=4.7} berechnet wird, ist die Größe für den Entscheidungsbaum wichtiger als Alter oder Stil.
Es gibt verschiedene Messwerte für die Wichtigkeit von Variablen, die ML-Experten über verschiedene Aspekte von Modellen informieren können.
W
Weisheit der Menge
Die Idee, die Meinungen oder Schätzungen einer großen Gruppe von Menschen (der Menge) zu ermitteln, erzeugt oft erstaunlich gute Ergebnisse. Nehmen wir als Beispiel ein Spiel, bei dem Nutzer die Anzahl der in einem großen Glas gefüllten Jelly Beans erraten. Obwohl die meisten einzelnen Schätzungen ungenau sind, hat sich der Durchschnitt aller Annahmen empirisch gezeigt, dass sie der tatsächlichen Anzahl der Bohnen im Becher überraschend ähnlich sind.
Ensembles sind Softwaresoftware-Analoges zur Wissensvermittlung. Selbst wenn einzelne Modelle extrem ungenaue Vorhersagen treffen, erzeugt die durchschnittliche Vorhersage vieler Modelle oft erstaunlich gute Vorhersagen. Ein einzelner Entscheidungsbaum kann beispielsweise schlechte Vorhersagen liefern, aber ein Entscheidungsbaum trifft oft sehr gute Vorhersagen.