Validierungssatz: Eine andere Partition

Im vorherigen Modul wurde die Partitionierung eines Datasets in einen Trainings- und einen Test-Datensatz eingeführt. Diese Partitionierung ermöglicht es Ihnen, mit einer Reihe von Beispielen zu trainieren und das Modell dann an einer anderen Reihe von Beispielen zu testen. Mit zwei Partitionen könnte der Workflow so aussehen:

Ein Workflow-Diagramm, das aus drei Phasen besteht. 1. Modell mit Trainings-Dataset trainieren. 2. Modell anhand des Test-Datasets bewerten. 3. Das Modell wird gemäß den Ergebnissen des Test-Datasets optimiert. Iterieren Sie auf 1, 2 und 3 und wählen Sie schließlich das Modell aus, das im Test-Dataset die beste Leistung erzielt.

Abbildung 1. Ein möglicher Workflow?

In der Abbildung bedeutet „Modell optimieren“, dass Sie alles an dem Modell anpassen, das Sie sich vorstellen können – von der Änderung der Lernrate über das Hinzufügen oder Entfernen von Features bis hin zum von Grund auf neuen Entwurf eines komplett neuen Modells. Am Ende dieses Workflows wählen Sie das Modell aus, das im Test-Dataset die beste Leistung erzielt.

Das Teilen des Datasets in zwei Gruppen ist eine gute Idee, aber kein Allheilmittel. Sie können die Wahrscheinlichkeit einer Überanpassung erheblich reduzieren, indem Sie das Dataset in die drei Teilmengen partitionieren, die in der folgenden Abbildung dargestellt sind:

Ein horizontaler Balken, der in drei Teile unterteilt ist: 70% davon sind das Trainings-Dataset, 15% das Validierungs-Dataset und 15% das Test-Dataset

Abbildung 2. Ein Dataset in drei Teilmengen aufteilen

Mit dem Validierungs-Dataset können Sie die Ergebnisse aus dem Trainings-Dataset bewerten. Verwenden Sie dann das Test-Dataset, um Ihre Bewertung noch einmal zu überprüfen, nachdem das Modell den Validierungs-Datensatz "bestanden" hat. Die folgende Abbildung zeigt diesen neuen Workflow:

Ähnlicher Workflow wie in Abbildung 1, mit der Ausnahme, dass das Modell nicht anhand des Test-Datasets, sondern anhand des Validierungs-Datasets bewertet wird. Sobald das Trainings-Dataset und das Validierungs-Dataset mehr oder weniger übereinstimmen, vergleichen Sie das Modell mit dem Test-Dataset.

Abbildung 3. für einen besseren Workflow.

Dieser verbesserte Workflow umfasst Folgendes:

  1. Wählen Sie das Modell aus, das im Validierungs-Dataset die beste Leistung erzielt.
  2. Vergleichen Sie dieses Modell noch einmal mit dem Test-Dataset.

Dies ist ein besserer Workflow, da so weniger Kontakte mit dem Test-Dataset erstellt werden.