Neuronale Netzwerke trainieren: Best Practices

In diesem Abschnitt werden die Fehlerfälle bei der Backpropagation und die gängigste Methode zur Regularisierung eines neuronalen Netzwerks erläutert.

Fehlerfälle

Es gibt eine Reihe gängiger Ursachen dafür, dass Backpropagation schiefgehen kann.

Verschwindende Farbverläufe

Die Gradienten für die unteren Ebenen (näher an der Eingabe) können sehr gering ausfallen. In tiefen Netzwerken kann die Berechnung dieser Gradienten das Produkt vieler kleiner Begriffe beinhalten.

Wenn die Gradienten für die unteren Ebenen in Richtung 0 verschwinden, trainieren diese Ebenen sehr langsam oder gar nicht.

Die ReLU-Aktivierungsfunktion kann helfen, verschwindende Gradienten zu verhindern.

Explodierende Farbverläufe

Wenn die Gewichtungen in einem Netzwerk sehr groß sind, umfassen die Gradienten für die unteren Schichten Produkte mit vielen großen Begriffen. In diesem Fall kann es explodierende Gradienten geben, also Gradienten, die zu groß werden, um zu konvergieren.

Die Batchnormalisierung kann explodierende Gradienten verhindern und die Lernrate senken.

Fehlerhafte ReLU-Einheiten

Wenn die gewichtete Summe für eine ReLU-Einheit unter 0 fällt, kann die ReLU-Einheit hängen bleiben. Sie gibt die Aktivierung 0 aus, trägt nichts zur Netzwerkausgabe bei und Gradienten können während der Rückpropagierung nicht mehr durch sie fließen. Wenn eine Quelle mit Gradienten abgeschnitten ist, ändert sich die Eingabe in die ReLU möglicherweise nicht so weit, dass die gewichtete Summe wieder über 0 liegt.

Eine niedrigere Lernrate kann dazu beitragen, dass ReLU-Einheiten nicht ausgenutzt werden.

Dropout-Regularisierung

Eine weitere Form der Regularisierung, die als Dropout bezeichnet wird, ist für neuronale Netzwerke nützlich. Dabei werden Einheitenaktivierungen für einen einzelnen Gradientenschritt nach dem Zufallsprinzip in einem Netzwerk „ausgesetzt“. Je mehr Sie auslassen, desto stärker ist die Regularisierung:

  • 0,0 = Keine Dropout-Regularisierung.
  • 1,0 = Alles verwerfen. Das Modell lernt nichts.
  • Werte zwischen 0,0 und 1,0 = nützlicher.