Verstehen Sie Ihr Wissen: Modell-Debugging

Klicken Sie bei den folgenden Fragen auf Ihre Auswahl, um sie zu maximieren und Ihre Antwort zu prüfen.

Modellierung

Du und dein Freund Mel wie Einhörner. Tatsächlich magst du Einhörner so sehr, dass du beschließt, das Aussehen des Einhorns mithilfe von ... maschinellem Lernen vorherzusagen. Sie haben ein Dataset mit 10.000 Einhorndarstellungen. Für jede Darstellung enthält das Dataset den Standort, die Tageszeit, die Höhe, die Temperatur, die Luftfeuchtigkeit, die Bevölkerungsdichte, die Baumdichte, das Vorhandensein eines Regenbogens und viele andere Merkmale.

Sie möchten Ihr ML-Modell entwickeln. Mit welchem der folgenden Ansätze können Sie direkt mit der Entwicklung beginnen?
Einhörner sind oft in der Morgen- und Abenddämmerung zu sehen. Verwenden Sie daher die Funktion „Tageszeit“, um ein lineares Modell zu erstellen.
Richtig! Ein lineares Modell mit einem oder zwei sehr vorhersehbaren Features ist ein guter Ausgangspunkt.
Das Einsehen des Einhorns ist ein schwieriges Problem. Verwenden Sie daher ein neuronales Deep-Learning-Netzwerk mit allen verfügbaren Funktionen.
Falsch. Wenn Sie mit einem komplexen Modell beginnen, wird die Fehlerbehebung erschwert.
Beginnen Sie mit einem einfachen linearen Modell, aber nutzen Sie alle Features, um dafür zu sorgen, dass das einfache Modell Vorhersagekraft hat.
Falsch. Wenn Sie viele Features verwenden, auch bei einem linearen Modell, ist das resultierende Modell komplex und schwierig zu debuggen.

Baselines

Mithilfe von Regression mit Verlust des mittleren quadratischen Fehlers (Mean Square Square, MSE) vorhersagen Sie die Kosten einer Taxifahrt anhand von Dauer, Entfernung, Abfahrts- und Zielpunkt der Fahrt. Sie wissen:

  • Die durchschnittlichen Fahrtkosten betragen 15 $.
  • Die Fahrtkosten erhöhen sich um einen festen Betrag pro Kilometer.
  • Fahrten im Stadtzentrum werden gegen Aufpreis angeboten.
  • Der Fahrpreis beträgt mindestens 3 $.

Ermittle, ob die folgenden Baselines hilfreich sind.

Ist das eine hilfreiche Referenz: Jede Fahrt kostet 15 $.
Ja
Richtig! Die durchschnittlichen Kosten sind ein guter Ausgangspunkt.
Nein
Falsch. Die Vorhersage des Mittelwerts führt immer zu einem niedrigeren MSE als immer die Vorhersage eines anderen Werts. Daher liefert das Testen eines Modells anhand dieser Referenz einen sinnvollen Vergleich.
Das hängt von der Standardabweichung der Fahrkosten ab.
Falsch. Unabhängig von der Standardabweichung sind die durchschnittlichen Kosten der Fahrt eine nützliche Basis, da die Vorhersage des Durchschnitts immer zu einem niedrigeren MSE führt, wenn immer ein anderer Wert vorhergesagt wird.
Ist das eine nützliche Referenz: Ein trainiertes Modell, das nur Dauer und Ursprung als Merkmale verwendet
Ja
Falsch. Sie sollten ein trainiertes Modell erst als Basis verwenden, nachdem es vollständig in der Produktion validiert wurde. Außerdem sollte das trainierte Modell selbst anhand einer einfacheren Referenz validiert werden.
Nein
Richtig! Sie sollten ein trainiertes Modell erst als Basis verwenden, nachdem es vollständig in der Produktion validiert wurde.
Ist das eine nützliche Referenz: Die Kosten für eine Fahrt ergeben sich aus der Entfernung (in Kilometern) multipliziert mit dem Fahrpreis pro Kilometer.
Ja
Richtig! Die Entfernung ist der wichtigste Faktor bei der Ermittlung der Fahrtkosten. Daher ist eine Referenz, die auf der Entfernung basiert, nützlich.
Nein
Falsch. Die Entfernung ist der wichtigste Faktor bei der Bestimmung der Fahrtkosten. Daher ist eine Referenz, die auf der Entfernung basiert, nützlich.
Ist das eine hilfreiche Referenz: Jede Fahrt kostet 1 $. Das Modell muss diese Referenz immer übertreffen. Wenn das Modell diese Referenz nicht übertrifft, können wir sicher sein, dass es sich um einen Programmfehler handelt.
Ja
Falsch. Dies ist keine nützliche Referenz, da dies immer falsch ist. Ein Vergleich eines Modells mit einem Referenzwert, der immer falsch ist, ist nicht aussagekräftig.
Nein
Richtig! Diese Referenz ist kein hilfreicher Test Ihres Modells.

Hyperparameter

Die folgenden Fragen beschreiben Probleme beim Trainieren eines Klassifikators. Wählen Sie die Aktionen aus, die das beschriebene Problem beheben könnten.

Der Trainingsverlust beträgt 0,24 und der Validierungsverlust 0,36. Mit welchen der folgenden Aktionen können Sie den Unterschied zwischen Training und Validierungsverlust verringern?
Achten Sie darauf, dass die Trainings- und Validierungs-Datasets dieselben statistischen Attribute haben.
Richtig! Wenn die Trainings- und Validierungs-Datasets unterschiedliche statistische Attribute haben, helfen die Trainingsdaten nicht dabei, die Validierungsdaten vorherzusagen.
Verwenden Sie Normalisierung, um eine Überanpassung zu vermeiden.
Richtig! Wenn der Trainingsverlust kleiner als der Validierungsverlust ist, ist Ihr Modell wahrscheinlich zu stark an den Trainingsdaten angepasst. Durch Normalisierung wird eine Überanpassung verhindert.
Die Anzahl der Trainingsphasen erhöhen
Falsch. Wenn der Trainingsverlust kleiner als der Validierungsverlust ist, passt sich Ihr Modell in der Regel zu den Trainingsdaten an. Durch das Erhöhen von Trainingsphasen wird die Überanpassung nur erhöht.
Verringern Sie die Lernrate.
Falsch. Ein Validierungsverlust, der größer als der Trainingsverlust ist, weist in der Regel auf eine Überanpassung hin. Das Ändern der Lernrate verringert die Überanpassung nicht.
Sie führen die in der vorherigen Frage beschriebenen Aktionen aus und Ihre Trainings- und Validierungsverluste sinken nun von 1,0 auf etwa 0,24 nach dem Training für viele Epochen. Mit welcher der folgenden Aktionen können Sie den Trainingsverlust weiter reduzieren?
Erhöhen Sie die Tiefe und Breite Ihres neuronalen Netzwerks.
Richtig! Wenn Ihr Trainingsverlust nach dem Training über viele Epochen immer bei 0,24 liegt, fehlt Ihrem Modell die Vorhersagemöglichkeit für einen weiteren geringeren Verlust. Wenn die Tiefe und Breite des Modells erhöht werden, könnte das Modell die zusätzliche Vorhersagefunktion haben, die erforderlich ist, um den Trainingsverlust weiter zu reduzieren.
Die Anzahl der Trainingsphasen erhöhen
Falsch. Wenn Ihr Trainingsverlust nach dem Training über viele Epochen bei 0,24 liegt, führt das weitere Trainieren des Modells wahrscheinlich nicht zu einem erheblichen Rückgang des Trainingsverlusts.
Die Lernrate erhöhen
Falsch. Da sich der Trainingsverlust für viele Trainingsphasen nicht verringert hat, wird der endgültige Trainingsverlust wahrscheinlich nicht durch eine Erhöhung der Lernrate sinken. Eine Erhöhung der Lernrate kann Ihr Training instabil machen und verhindern, dass Ihr Modell die Daten lernt.
Sie gehen bei der vorherigen Frage richtig vor. Der Trainingsverlust Ihres Modells hat sich auf 0,20 verringert. Angenommen, Sie müssen den Trainingsverlust Ihres Modells etwas reduzieren. Sie fügen einige Features mit Vorhersageleistung hinzu. Der Trainingsverlust schwankt jedoch weiterhin etwa um 0, 20. Mit welchen der folgenden Optionen können Sie Ihren Trainingsverlust reduzieren?
Erhöhen Sie die Tiefe und Breite Ihrer Ebenen.
Richtig! Möglicherweise hat Ihr Modell nicht die Möglichkeit, die Vorhersagesignale in den neuen Features zu lernen.
Erhöhen Sie die Trainingsphasen.
Falsch. Wenn der Trainingsverlust Ihres Modells um 0,20 schwankt, führt die Erhöhung der Anzahl der Trainingsphasen wahrscheinlich zu einem Trainingsverlust des Modells, der weiterhin etwa 0,20 schwankt.
Die Features fügen keine Informationen zu vorhandenen Features hinzu. Versuchen Sie es mit einer anderen Funktion.
Richtig! Es ist möglich, dass die von den Funktionen codierten Prognosesignale bereits in den von Ihnen verwendeten Merkmalen vorhanden sind.
Verringern Sie die Lernrate.
Richtig! Durch das Hinzufügen der neuen Features ist das Problem möglicherweise komplexer geworden. Insbesondere Schwankungen beim Verlust weisen darauf hin, dass die Lernrate zu hoch ist und das Modell um das Minima springt. Wenn Sie die Lernrate verringern, lernt das Modell die Minima.