Glosariusz systemów uczących się: wzmocnienie

Ta strona zawiera terminy w słowniczku wzmacniającym. Wszystkie terminy słowniczka znajdziesz tutaj.

A

działanie

#rl

W ramach uczenia się mechanizm, który agent przechodzi między stanami środowiska środowiska. Agent wybiera działanie za pomocą zasady.

agent

#rl

W ramach uczenia się element, który wykorzystuje zasady do osiągnięcia oczekiwanego zwrotu uzyskanego między przejściem z stanów środowiska środowiska.

B

Równanie Bellmana

#rl

W przypadku uczenia się uzyskiwano następującą tożsamość na podstawie optymalnej funkcji Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algorytmy wzmacniania uczenia się używają tej tożsamości do tworzenia procesów nauczania za pomocą tej reguły aktualizacji:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Poza uczeniem się przez wzmocnienie równanie Bellmana ma zastosowania do programowania dynamicznego. Zobacz wpis w Wikipedii dotyczący równania Bellmana.

C

krytyk

#rl

synonim głębokiej sieci Q.

D

Szczegółowa sieć Q-N (DQN)

#rl

W narzędziu Q-learning głębia sieci neuronowych prognozuje funkcje Q.

Krytyczny to synonim synonimu głębokiej sieci Q.

DQN,

#rl

Skrót od deep Q-Network (skrót do głębokiej sieci).

E

środowisko

#rl

W ramach uczenia się świat, który zawiera agenta, umożliwia agentowi obserwowanie tego stanu. Świat reprezentowany może być na przykład w szachy, a fizyczny – w labiryncie. Gdy agent wykona działanie w środowisku, środowisko zostanie przeniesione między stanami.

odcinek

#rl

W ramach uczenia się każda próba powtórzenia przez agenta środowiska.

zasady Eepsilon Greedy

#rl

Nauka jest wzmocniona dzięki zasadom, które są zgodne z zasadami dotyczącymi losu i w przypadku nieprzyjaznych zasad. Jeśli na przykład odcinek ma wartość 0,9, zasada jest stosowana w sposób losowy w 90% przypadków, a zasadami w 10% czasu.

W przypadku kolejnych odcinków algorytm zmniejsza wartość Eepsilona, by zmienić sposób jego wyświetlania z losowych zasad na chciwe. Przesuwając zasadę, agent najpierw sprawdza środowisko, a następnie żarłocznie bada wyniki eksploracji.

ponowne odtwarzanie

#rl

Technologia uwydatniania uczenia się DQN stosowana w celu ograniczenia korelacji czasowych w danych treningowych. Agent przechowuje przejścia stanu w buforze ponownego odtwarzania, a następnie próbkuje przejścia z bufora ponownego odtwarzania, aby utworzyć dane treningowe.

Z

zasady Greed

#rl

W ramach uczenia się zasada zawsze wybiera działanie z najwyższym oczekiwanym zwrotem.

M

Proces wyboru Markowa

#rl

Wykres przedstawiający model podejmowania decyzji, w którym podejmowane są decyzje dotyczące stanów przy założeniu, że właściwość Markowa zawiera. W ramach uczenia się wzmacniającego przejścia między stanami zwracają liczbowe nagrody.

Właściwość Markowa

#rl

Usługa w wybranych środowiskach, w której przeniesienie stanów jest całkowicie określane na podstawie informacji podanych w bieżącym stanie i działaniu agenta.

P

policy

#rl

Wspomagają one proces agenta agenta w przypadku stanów do działań.

Q

Q-funkcja

#rl

W funkcji umocnienia systemów uczących się funkcja, która przewiduje spodziewany zwrot z działania w stanie, a następnie po upływie danego zasady.

Funkcja Q jest też nazywana funkcją wartości działania.

Q-learning

#rl

W procesie uczenia się algorytm, który pozwala agentowi nauczyć się optymalnej funkcji Q z procesu podejmowania decyzji Markowa przez zastosowanie równania Bellmana. Proces ten podejmuje model środowiska.

C

losowa zasada

#rl

W ramach skutecznego uczenia się jest to zasada, która losowo wybiera działanie.

uczenie się przez wzmocnienie (RL)

#rl

Rodzina algorytmów, które uczą się optymalnej zasady, której celem jest maksymalizacja zwrotu w środowisku. Na przykład największą nagrodą w przypadku większości gier jest zwycięstwo. Systemy uczące się mogą stać się ekspertem w grach ze złożonymi grami, oceniając sekwencje poprzednich rozgrywek, które doprowadziły do zwycięskich sekwencji i sekwencji, które doprowadziły do strat.

bufor powtórny

#rl

W algorytmach podobnych do DQN pamięć używana przez agenta do przechowywania przejść stanowych używana w ponownym odtwarzaniu.

powrót

#rl

W związku z określoną zasadą i konkretnym stanem zwrot jest sumą wszystkich nagród, które agent otrzymuje po zastosowaniu zasady ze stanu do końca odcinka. Agent uwzględnia opóźnienia w realizacji oczekiwanych nagród przez rabaty w zależności od zmian stanu wymaganych do uzyskania nagrody.

Jeśli więc współczynnik rabatowy to \(\gamma\)i \(r_0, \ldots, r_{N}\)oznacza nagrody do końca odcinka, obliczenie zwrotu wygląda tak:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

kupon promocyjny

#rl

W przypadku wzmocnienia uczenie się wynik liczbowy wykonania działania w stanie, zgodnie z definicją środowiska.

s

state

#rl

W trakcie wzmocnienia systemów wartości parametrów opisujących bieżącą konfigurację środowiska są używane przez agenta do wybierania działania.

funkcja wartość stanu

#rl

Synonim: funkcja Q.

T

tabelaryczna nauka Q

#rl

W ramach nauczania wzmacniania wdrażaj naukę Q za pomocą tabeli do przechowywania funkcji Q dla każdej kombinacji stanu i działania.

sieć docelowa

#rl

W ramach głębokiego uczenia się sieć neuronowa stanowi stabilną przybliżoną główną sieć neuronową, w której główna sieć neuronowa wdraża funkcję Q lub zasady. Następnie możesz wytrenować sieć główną na podstawie wartości Q przewidywanych przez sieć docelową. Zapobiega to zapętlaniu się informacji, które ma miejsce, gdy główna sieć trenuje wartości prognozowane przez siebie. Dzięki unikaniu tych opinii można zwiększyć stabilność systemu trenowania.

warunek zamknięcia

#rl

W przypadku uczenia się wzmocnienia warunki, które określają, kiedy kończy się odcinek, na przykład gdy agent osiąga określony stan lub przekracza próg przejścia między stanami. Na przykład w tic-tac-toe

trajektoria

#rl

W ramach wzmacniania uczenia się sekwencja ciągów symbolizuje stan zmian w agentze, gdzie każda porcja odpowiada stanowi, działaniu, nagrodzie i następnemu stanowi danego przejścia.