Machine Learning | Google for Developers

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Trainings- und Test-Datasets

Wir kehren zu Playground zurück, um mit den Trainings-Datasets zu experimentieren und Test-Datasets.

Klicken Sie auf das Pluszeichen, um die Bedeutung der orangefarbenen und blauen Punkte zu sehen.

In der Visualisierung gilt:

Jeder blaue Punkt steht für ein Beispiel für eine Datenklasse (z. B. Spam.
Jeder orangefarbene Punkt steht für ein Beispiel einer anderen Datenklasse (für z. B. „Kein Spam“).
Die Hintergrundfarbe stellt die Vorhersage des Modells dar, wo Beispiele sollte gefunden werden. Ein blauer Hintergrund um einen blauen Punkt dass das Modell dieses Beispiel korrekt vorhersagt. Umgekehrt Ein orangefarbener Hintergrund um einen blauen Punkt bedeutet, dass das Modell eine falsche Vorhersage für dieses Beispiel.

Diese Übung bietet sowohl ein Test-Dataset als auch ein Trainings-Dataset, die beide aus denselben Datensatz. Standardmäßig zeigt die Visualisierung nur das Training an festgelegt. Wenn Sie das Test-Dataset ebenfalls anzeigen möchten, klicken Sie auf das Kästchen Testdaten anzeigen direkt unter der Visualisierung. Im Visualisierung verwenden, beachten Sie den folgenden Unterschied:

Die Trainingsbeispiele sind weiß umrandet.
Die Testbeispiele sind schwarz umrandet.

Aufgabe 1: Führen Sie Playground mit den angegebenen Einstellungen aus, indem Sie Folgendes:

Klicken Sie auf die Schaltfläche „Ausführen/Pause“:
Beobachte, wie sich die Werte für den Test- und Trainingsverlust ändern.
Wenn sich die Werte für den Test- und Trainingsverlust nicht mehr ändern oder nehmen Sie Änderungen vor, indem Sie die Schaltfläche "Ausführen/Pause" drücken. noch einmal, um Playground zu pausieren.

Achten Sie auf das Delta zwischen dem Test- und dem Trainingsverlust. Wir werden versuchen, diese Delta in den folgenden Aufgaben.

Aufgabe 2: Führen Sie die folgenden Schritte aus:

Drücken Sie die Taste zum Zurücksetzen.
Den Lernpfad ändern rate.
Drücke auf die Schaltfläche „Laufen/Pause“:
Lassen Sie Playground mindestens 150 Epochen laufen.

Ist das Delta zwischen Test- und Trainingsverlust niedriger oder Lernrate erhöhen? Was passiert, wenn Sie beide Änderungen vornehmen? Lernrate und Batchgröße?

Optionale Aufgabe 3: Ein Schieberegler mit der Bezeichnung Trainingsdatenprozentsatz. können Sie den Anteil der Trainingsdaten zu Testdaten steuern. Beispiel: auf 90 % gesetzt ist, werden 90% der Daten für das Dataset die restlichen 10% werden für das Test-Dataset verwendet.

Gehen Sie so vor:

Den Prozentsatz der Trainingsdaten verringern von 50% auf 10%.
Experimentieren Sie mit Lernrate und Batchgröße und machen Sie sich Notizen Ergebnisse.

Ändert sich durch die Änderung des Prozentsatzes der Trainingsdaten die optimale die Sie in Aufgabe 2 kennengelernt haben? Wenn ja, warum?

Klicken Sie auf das Plus-Symbol für die Antwort auf Aufgabe 1.

Wenn die Lernrate auf 3 gesetzt ist (die Anfangseinstellung), Der Testverlust ist deutlich höher als der Trainingsverlust.

Klicken Sie für die Antwort auf Aufgabe 2 auf das Pluszeichen.

Durch Senken der Lernrate (z. B. auf 0,001) Der Testverlust sinkt auf einen Wert, der viel näher an dem Trainingsverlust liegt. In den meisten Läufen Eine Erhöhung der Batchgröße wirkt sich nicht auf den Trainingsverlust oder den Test aus erheblich. Bei einem kleinen Prozentsatz der Ausführungen Die Batchgröße auf 20 oder mehr führt dazu, dass der Testverlust geringfügig sinkt unter Trainingsverlust.

Die Datensätze von Playground werden zufällig generiert. Entsprechend fällt unsere Antworten möglicherweise nicht immer genau mit Ihren übereinstimmen.

Klicken Sie für die Antwort auf Aufgabe 3 auf das Pluszeichen.

Den Prozentsatz der Trainingsdaten erheblich von 50% auf 10% reduzieren verringert die Anzahl der Datenpunkte im Trainings-Dataset. Bei so wenigen Daten Eine hohe Batchgröße und eine hohe Lernrate führen dazu, dass das Trainingsmodell chaotisch hin und her (wiederholtes Springen über den Minimalwert).