Im vorherigen Modul wurde die Partitionierung eines Datasets in einen Trainings- und einen Test-Datensatz eingeführt. Diese Partitionierung ermöglicht es Ihnen, mit einer Reihe von Beispielen zu trainieren und das Modell dann an einer anderen Reihe von Beispielen zu testen. Mit zwei Partitionen könnte der Workflow so aussehen:
Abbildung 1. Ein möglicher Workflow?
In der Abbildung bedeutet „Modell optimieren“, dass Sie alles an dem Modell anpassen, das Sie sich vorstellen können – von der Änderung der Lernrate über das Hinzufügen oder Entfernen von Features bis hin zum von Grund auf neuen Entwurf eines komplett neuen Modells. Am Ende dieses Workflows wählen Sie das Modell aus, das im Test-Dataset die beste Leistung erzielt.
Das Teilen des Datasets in zwei Gruppen ist eine gute Idee, aber kein Allheilmittel. Sie können die Wahrscheinlichkeit einer Überanpassung erheblich reduzieren, indem Sie das Dataset in die drei Teilmengen partitionieren, die in der folgenden Abbildung dargestellt sind:
Abbildung 2. Ein Dataset in drei Teilmengen aufteilen
Mit dem Validierungs-Dataset können Sie die Ergebnisse aus dem Trainings-Dataset bewerten. Verwenden Sie dann das Test-Dataset, um Ihre Bewertung noch einmal zu überprüfen, nachdem das Modell den Validierungs-Datensatz "bestanden" hat. Die folgende Abbildung zeigt diesen neuen Workflow:
Abbildung 3. für einen besseren Workflow.
Dieser verbesserte Workflow umfasst Folgendes:
- Wählen Sie das Modell aus, das im Validierungs-Dataset die beste Leistung erzielt.
- Vergleichen Sie dieses Modell noch einmal mit dem Test-Dataset.
Dies ist ein besserer Workflow, da so weniger Kontakte mit dem Test-Dataset erstellt werden.