Out-of-back-Evaluierung

Für Random Forests ist kein Validierungs-Dataset erforderlich. In den meisten zufälligen Gesamtstrukturen wird die Qualität des Modells mit einer Methode namens out-of-bag-evaluation (out-of-bag-evaluation-out-of-bag-evaluation) bewertet. Bei der OOB-Bewertung wird das Trainings-Dataset so behandelt, als befände es sich im Test-Dataset einer Kreuzvalidierung.

Wie bereits erläutert, wird jeder Entscheidungsbaum in einer zufälligen Gesamtstruktur in der Regel mit etwa 67% der Trainingsbeispiele trainiert. Daher werden für jeden Entscheidungsbaum etwa 33% der Trainingsbeispiele nicht berücksichtigt. Der Grundgedanke der OOB-Bewertung lautet:

  • Bewerten der zufälligen Gesamtstruktur im Trainings-Dataset.
  • Verwenden Sie für jedes Beispiel nur die Entscheidungsbäume, die das Beispiel während des Trainings nicht gesehen haben.

Die folgende Tabelle zeigt die OOB-Bewertung einer zufälligen Gesamtstruktur mit drei Entscheidungsbäumen, die anhand von 6 Beispielen trainiert wurden. (Ja, dies ist dieselbe Tabelle wie im Bereich „Bagging“.) Die Tabelle zeigt, welcher Entscheidungsbaum mit welchem Beispiel bei der OOB-Auswertung verwendet wird.

Tabelle 7. OOB-Bewertung: Die Zahlen geben an, wie oft ein bestimmtes Trainingsbeispiel während des Trainings verwendet wird.

Trainingsbeispiele Beispiele für die OOB-Bewertung
#1 2. #3 #4 #5 #6
ursprüngliches Dataset 1 1 1 1 1 1
Entscheidungsbaum 1 1 1 0 2 1 1 #3
Entscheidungsbaum 2 3 0 1 0 2 0 Nr. 2, 4 und 6
Entscheidungsbaum 3 0 1 3 1 0 1 Nr. 1 und Nr. 5

Im Beispiel in Tabelle 7 werden die OOB-Vorhersagen für Trainingsbeispiel 1 mit dem Entscheidungsbaum 3 berechnet, da dieses Beispiel für das Training verwendet wurde. In der Praxis haben alle Beispiele bei einem Dataset von angemessener Größe und mit einigen Entscheidungsbäumen eine OOB-Vorhersage.

YDF-Code
In YDF ist die OOB-Auswertung in den Trainingslogs verfügbar, wenn das Modell mit compute_oob_performances=True trainiert wird.

Die OOB-Auswertung ist auch effektiv, um die Bedeutung von Permutationsvariablen für Zufallsstrukturmodelle zu berechnen. Denken Sie daran, dass unter Variablenwichtigkeit die Bedeutung von Permutationsvariablen die Wichtigkeit einer Variablen misst. Dazu wird der Rückgang der Modellqualität beim Zufallsmix dieser Variable gemessen. Die Zufalls-Gesamtstruktur "OOB-Permutationsvariablenwichtigkeit" ist eine Permutationsvariablen-Wichtigkeit, die mithilfe der OOB-Bewertung berechnet wird.

YDF-Code
In YDF ist die Bedeutung der OOB-Permutationsvariablen in den Trainingslogs verfügbar, wenn das Modell mit compute_oob_variable_importances=True trainiert wird.