Trainings- und Test-Datasets
Wir kehren zu Playground zurück, um mit den Trainings-Datasets zu experimentieren
und Test-Datasets.
Klicken Sie auf das Pluszeichen, um die Bedeutung der orangefarbenen und blauen Punkte zu sehen.
In der Visualisierung gilt:
- Jeder blaue Punkt steht für ein Beispiel für eine Datenklasse (z. B.
Spam.
- Jeder orangefarbene Punkt steht für ein Beispiel einer anderen Datenklasse (für
z. B. „Kein Spam“).
- Die Hintergrundfarbe stellt die Vorhersage des Modells dar, wo Beispiele
sollte gefunden werden. Ein blauer Hintergrund um einen blauen Punkt
dass das Modell dieses Beispiel korrekt vorhersagt. Umgekehrt
Ein orangefarbener Hintergrund um einen blauen Punkt bedeutet, dass das Modell
eine falsche Vorhersage für dieses Beispiel.
Diese Übung bietet sowohl ein Test-Dataset als auch ein Trainings-Dataset, die beide aus
denselben Datensatz. Standardmäßig zeigt die Visualisierung nur das Training an
festgelegt. Wenn Sie das Test-Dataset ebenfalls anzeigen möchten, klicken Sie auf
das Kästchen Testdaten anzeigen direkt unter der Visualisierung. Im
Visualisierung verwenden, beachten Sie den folgenden Unterschied:
- Die Trainingsbeispiele sind weiß umrandet.
- Die Testbeispiele sind schwarz umrandet.
Aufgabe 1: Führen Sie Playground mit den angegebenen Einstellungen aus, indem Sie
Folgendes:
- Klicken Sie auf die Schaltfläche „Ausführen/Pause“:

- Beobachte, wie sich die Werte für den Test- und Trainingsverlust ändern.
- Wenn sich die Werte für den Test- und Trainingsverlust nicht mehr ändern
oder nehmen Sie Änderungen vor, indem Sie die Schaltfläche "Ausführen/Pause" drücken.
noch einmal, um Playground zu pausieren.
Achten Sie auf das Delta zwischen dem Test- und dem Trainingsverlust. Wir werden versuchen, diese
Delta in den folgenden Aufgaben.
Aufgabe 2: Führen Sie die folgenden Schritte aus:
- Drücken Sie die Taste zum Zurücksetzen.

- Den Lernpfad ändern
rate.
- Drücke auf die Schaltfläche „Laufen/Pause“:
- Lassen Sie Playground mindestens 150 Epochen laufen.
Ist das Delta zwischen Test- und Trainingsverlust niedriger oder
Lernrate erhöhen? Was passiert, wenn Sie beide Änderungen vornehmen?
Lernrate und
Batchgröße?
Optionale Aufgabe 3: Ein Schieberegler mit der Bezeichnung Trainingsdatenprozentsatz.
können Sie den Anteil der Trainingsdaten
zu Testdaten steuern. Beispiel:
auf 90 % gesetzt ist, werden 90% der Daten für das Dataset
die restlichen 10% werden für das Test-Dataset verwendet.
Gehen Sie so vor:
- Den Prozentsatz der Trainingsdaten verringern von 50% auf 10%.
- Experimentieren Sie mit Lernrate und Batchgröße und machen Sie sich Notizen
Ergebnisse.
Ändert sich durch die Änderung des Prozentsatzes der Trainingsdaten die optimale
die Sie in Aufgabe 2 kennengelernt haben? Wenn ja, warum?
Klicken Sie auf das Plus-Symbol für die Antwort auf Aufgabe 1.
Wenn die Lernrate auf 3 gesetzt ist (die Anfangseinstellung),
Der Testverlust ist deutlich höher als der Trainingsverlust.
Klicken Sie für die Antwort auf Aufgabe 2 auf das Pluszeichen.
Durch Senken der Lernrate (z. B. auf 0,001)
Der Testverlust sinkt auf einen Wert, der viel näher an dem Trainingsverlust liegt. In den meisten Läufen
Eine Erhöhung der Batchgröße wirkt sich nicht auf den Trainingsverlust oder den Test aus
erheblich. Bei einem kleinen Prozentsatz der Ausführungen
Die Batchgröße auf 20 oder mehr führt dazu, dass der Testverlust geringfügig sinkt
unter Trainingsverlust.
Die Datensätze von Playground werden zufällig generiert. Entsprechend fällt unsere
Antworten möglicherweise nicht immer genau mit Ihren übereinstimmen.
Klicken Sie für die Antwort auf Aufgabe 3 auf das Pluszeichen.
Den Prozentsatz der Trainingsdaten erheblich von 50% auf 10% reduzieren
verringert die Anzahl der Datenpunkte im Trainings-Dataset. Bei so wenigen Daten
Eine hohe Batchgröße und eine hohe Lernrate führen dazu, dass das Trainingsmodell
chaotisch hin und her (wiederholtes Springen über den Minimalwert).