Wieloklasowe sieci neuronowe: SoftMax

Pamiętaj, że regresja logistyczna daje ułamki dziesiętne z zakresu od 0 do 1,0. Na przykład regresja logiczna podana jako wartość 0,8 w przypadku klasyfikatora poczty e-mail sugeruje 80% prawdopodobieństwa, że e-mail jest spamem, a 20% prawdopodobieństwo, że nie jest to spam. Suma suma prawdopodobieństwa e-maili, które są spamem lub nie, wynosi 1,0.

SoftMax to wieloklasowy pomysł. Oznacza to, że funkcja Softmax przypisuje prawdopodobieństwo dziesiętne do każdej klasy w zadaniu wieloklasowym. Te prawdopodobieństwa dziesiętne muszą się sumować do 1,0. To dodatkowe ograniczenie pomaga w trenowaniu szybciej niż zwykle.

Na przykład po powrocie do analizy obrazu z rysunku 1 program Softmax może wygenerować następujące prawdopodobieństwo uzyskania obrazu należącego do określonej klasy:

Klasa Probability,
apple 0,001
niedźwiadek 0,04
cukierek 0,008
pies 0,95
jajko 0,001

Softmax jest wdrażany przez warstwę sieci neuronowych, tuż przed warstwą wyjściową. Warstwa Softmax musi mieć taką samą liczbę węzłów co warstwa wyjściowa.

Głęboka sieć neuronowa z warstwą wejściową, 2 nieukryte warstwy, potem warstwa Softmax, a następnie warstwę wyjściową z tą samą liczbą węzłów co warstwa Softmax.

Rysunek 2. Warstwa Softmax w sieci neuronowej.

Opcje SoftMax

Rozważ te wersje Softmax:

  • Fullsoft to omówienie Softmax, o którym mówimy, czyli oblicza prawdopodobieństwo dla każdej możliwej klasy.

  • Próbkowanie kandydata oznacza, że program Softmax oblicza prawdopodobieństwo dla wszystkich etykiet dodatnich, ale tylko dla losowej próby etykiet negatywnych. Jeśli na przykład chcemy określić, czy zdjęcie wejściowe jest źródłem informacji o boisku lub krewnym, nie musimy podawać prawdopodobieństwa w przypadku każdego przykładu.

Pełna wersja Softmax jest stosunkowo tania, gdy jest ich bardzo mało, ale ich liczba znacznie się zwiększa, kiedy ich liczba rośnie. Próbkowanie kandydatów może poprawić wydajność w przypadku dużej liczby zajęć.

Jedna etykieta a wiele etykiet

W programie Softmax założono, że każdy przykład należy do dokładnie jednej klasy. Niektóre przykłady mogą być jednocześnie wieloma zajęciami. Przykłady:

  • Nie możesz korzystać z Softmax.
  • Musisz polegać na wielu regresjach logistycznych.

Załóżmy, że na przykład są obrazy zawierające tylko jeden element – fragment owoców. Softmax może określić prawdopodobieństwo, że dany element jest gruszką, pomarańczem, jabłkiem itd. Jeśli w przykładach są obrazy zawierające różne rodzaje owoców (różne rodzaje owoców), musisz zamiast tego użyć kilku regresji logistycznych.