Neuronale Netzwerke mit mehreren Klassen: Softmax

Wie bereits erwähnt, erzeugt die logistische Regression eine Dezimalzahl zwischen 0 und 1,0. Beispielsweise ergibt eine logistische Regressionsausgabe von 0,8 aus einem E-Mail-Klassifikator eine Wahrscheinlichkeit von 80 %, dass eine E-Mail als Spam und 20% als Spam eingestuft wird. Die Wahrscheinlichkeit, dass eine E-Mail entweder Spam oder kein Spam ist, liegt eindeutig bei 1,0.

Mit Softmax lässt sich diese Idee in mehrere Welten unterteilen. Das heißt, Softmax weist jeder Klasse in einem Problem mit mehreren Klassen dezimale Wahrscheinlichkeiten zu. Diese Dezimalwahrscheinlichkeiten müssen zusammen 1,0 ergeben. Diese zusätzliche Einschränkung trägt dazu bei, dass das Training schneller konvergiert als sonst.

Wenn wir beispielsweise zur Bildanalyse aus Abbildung 1 zurückkehren, generiert Softmax möglicherweise die folgenden Wahrscheinlichkeiten, dass ein Bild zu einer bestimmten Klasse gehört:

Klasse Probability
apple 0,001
Bär 0,04
Süßigkeit 0,008
dog 0,95
Ei 0,001

Softmax wird über eine neuronale Netzwerkebene kurz vor der Ausgabeebene implementiert. Die Softmax-Ebene muss die gleiche Anzahl von Knoten wie die Ausgabeebene haben.

Ein tiefes neuronales Netz mit einer Eingabeebene, zwei nicht versteckten Ebenen, dann einer Softmax-Ebene und schließlich einer Ausgabeebene mit derselben Anzahl von Knoten wie die Softmax-Ebene.

Abbildung 2. Eine Softmax-Ebene innerhalb eines neuronalen Netzwerks.

Softmax-Optionen

Betrachten Sie die folgenden Varianten von Softmax:

  • Full Softmax ist der Softmax-Wert, den wir diskutiert haben. Das heißt, Softmax berechnet für jede mögliche Klasse eine Wahrscheinlichkeit.

  • Probenahmestichproben bedeutet, dass Softmax eine Wahrscheinlichkeit für alle positiven Labels berechnet, aber nur für eine zufällige Stichprobe negativer Labels. Wenn wir beispielsweise ermitteln möchten, ob ein Eingabebild ein Beagle oder ein Bluthund ist, müssen wir nicht für jedes Beispiel, das kein Doggy ist, Wahrscheinlichkeiten angeben.

Full Softmax ist relativ günstig, wenn die Anzahl der Kurse klein ist, wird aber bei steigender Anzahl von Klassen unverhältnismäßig hoch. Die Stichprobenerhebung bei Kandidaten kann die Effizienz bei Problemen erhöhen, die eine große Anzahl von Klassen haben.

Ein Label vs. viele Labels

Softmax geht davon aus, dass jedes Beispiel Mitglied von genau einer Klasse ist. Einige Beispiele können jedoch gleichzeitig Mitglied mehrerer Kurse sein. Beispiele:

  • Softmax darf nicht verwendet werden.
  • Sie müssen sich auf mehrere logistische Regressionen verlassen.

Angenommen, Ihre Beispiele sind Bilder mit genau einem Artikel – einem Obststück. Softmax kann die Wahrscheinlichkeit ermitteln, mit der ein Element eine Birne, eine Orange, ein Apfel usw. ist. Wenn es sich bei Ihren Beispielen um Bilder handelt, die sehr unterschiedliche Objekte enthalten – Bowls mit verschiedenen Obstsorten – müssen Sie stattdessen mehrere logistische Regressionen verwenden.