Reti neurali multiclasse: Softmax

Ricorda che la regressione logistica produce un numero decimale compreso tra 0 e 1,0. Ad esempio, un output di regressione logistica di 0,8 da un classificatore di email suggerisce l'80% di probabilità che un'email sia spam e il 20% di probabilità che non sia spam. È evidente che la somma delle probabilità che un'email sia spam o meno è pari a 1,0.

Softmax estende questa idea a un mondo multi-classe. In altre parole, Softmax assegna probabilità decimali a ogni classe in un problema a più classi. Le probabilità decimali devono corrispondere a 1,0. Questo vincolo aggiuntivo aiuta l'addestramento a convergere più velocemente di quanto farebbe altrimenti.

Ad esempio, tornando all'analisi dell'immagine che abbiamo visto nella Figura 1, Softmax potrebbe produrre le seguenti probabilità di un'immagine appartenente a una specifica classe:

Classe Probability
apple 0,001
orso 0,04
caramella 0,008
cane 0,95
uovo 0,001

Il softsoft viene implementato tramite un livello di rete neurale prima del livello di output. Il livello Softmax deve avere lo stesso numero di nodi del livello di output.

Una rete neurale profonda con un livello di input, due livelli nascosti non descrittivi, un livello Softmax e infine un livello di output con lo stesso numero di nodi del livello Softmax.

Figura 2. Un livello Softmax all'interno di una rete neurale.

Opzioni Softmax

Considera le seguenti varianti di Softmax:

  • Full Softmax è il Softmax di cui abbiamo parlato; cioè Softmax calcola una probabilità per ogni possibile classe.

  • Il campionamento candidato indica che Softmax calcola una probabilità per tutte le etichette positive, ma solo per un campione casuale di etichette negative. Ad esempio, se vogliamo determinare se un'immagine di input è un beagle o un segugio di sangue, non dobbiamo fornire probabilità per ogni esempio che non sia un cane.

L'intero Softmax è abbastanza economico quando il numero di lezioni è ridotto, ma diventa eccessivamente costoso quando il numero di lezioni aumenta. Il campionamento dei candidati può migliorare l'efficienza in caso di problemi in un numero elevato di classi.

Una etichetta rispetto a molte etichette

Softmax presume che ogni esempio sia membro di una sola classe. Alcuni esempi, tuttavia, possono essere membri di più corsi contemporaneamente. Per questi esempi:

  • Non puoi utilizzare Softmax.
  • Devi fare affidamento su più regressioni logiche.

Supponiamo, ad esempio, che le tue immagini contengano esattamente un articolo o un frutto. Softmax può determinare la probabilità che un elemento sia una pera, un'arancia, una mela e così via. Se i tuoi esempi sono immagini contenenti di tutti i tipi, ad esempio piatti di frutta diversi, devi utilizzare più regressioni logistiche.