Glosariusz systemów uczących się: wzmocnienie

Ta strona zawiera terminy ze słownika Reinforcement Learning. Aby uzyskać dostęp do wszystkich glosariuszy, kliknij tutaj.

A

działanie

#rl

W przypadku uczenia się przez wzmocnienie mechanizm, który agent przechodzi między stanami w środowisku. Agent wybiera działanie za pomocą zasady.

agent

#rl

W przypadku procesu uczenia się podmiot, który używa zasad, aby zmaksymalizować oczekiwany zwrot po przejściu z stanów na środowisko.

B

Równanie Bellmana

#rl

Aby wzmocnić uczenie się, taką tożsamość lepiej odbiera optymalna funkcja Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algorytmy uczenie się przez wzmocnienie stosują tę tożsamość do tworzenia sesji edukacyjnych za pomocą tej reguły aktualizacji:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

Równanie Bellmana obejmuje nie tylko uczenie się przez wzmocnienie, ale też wykorzystuje programy dynamiczne. Zajrzyj do wpisu o równaniu Bellmana w Wikipedii.

C

krytyk

#rl

Synonim głębokiej sieci Q.

D

Głęboka sieć Q (DQN)

#rl

W procesie uczenia się Q jest to sieć neuronowa, która przewiduje funkcje Q.

krytyka jest synonimem głębokiego Q-Network,

DQN,

#rl

Skrót od Deep Q-Network.

1

środowisko

#rl

W przypadku uczenia się przez wzmocnienie świat zawiera agenta, który umożliwia agentowi obserwowanie stanu tego świata. Reprezentowany świat może być np. szachą lub świat fizyczny tak jak labirynt. Gdy agent wykona działanie na środowisku, przechodzi ono między stanami.

odcinek

#rl

Wspomaganie procesu uczenia się każdej próby powtarzania przez agenta procesu środowiska.

zasady dotyczące chciwej usługi Eepsilon

#rl

Uczenie się, które jest zgodne z zasadami dotyczącymi przypadkowych treści z prawdopodobieństwem w odniesieniu do episilonu lub zasadami dotyczącymi chciwości. Jeśli na przykład odcinek epsilon ma wartość 0,9, zasady są stosowane losowo przez 90% przypadków, a zasady w przypadku chciwości 10%.

W przypadku kolejnych odcinków algorytm zmniejsza wartość odcinka, aby przejść od zasad losowych do zachłannej zasady. Zmieniając zasadę, agent losowo sprawdza środowisko, a następnie z chęcią wykorzystuje wyniki losowej eksploracji.

powtórka

#rl

W ramach uczenia się przez technikę DQN stosowana jest w celu ograniczenia korelacji czasowych w danych treningowych. Agent przechowuje przejścia stanu w buforze ponownego odtwarzania, a następnie próbkuje przejścia z bufora ponownego odtwarzania, aby utworzyć dane treningowe.

G

zasady dotyczące chciwości

#rl

Uczestnictwo w uczeniu utrwalającym, które zawsze wybiera działanie z najwyższym zwrotem.

P

Proces decyzyjny Markowa

#rl

Wykres przedstawiający model decyzyjny, w którym decyzje (lub działania) są wykorzystywane do poruszania się po sekwencji stanów, przy założeniu, że właściwość Markowa zawiera dane. W procesie uczenia się przejścia między stanami zwracają nagrodę liczbową.

Właściwość Markowa

#rl

Usługa w niektórych środowiskach, w której zmiany stanu są całkowicie określane przez informacje zawarte w obecnym stanie i działaniu agenta.

P

policy

#rl

Wspomagają one proces agenta, który polega na mapowaniu stanów na działania.

P

Q-funkcja

#rl

W przypadku uczenia się przez wzmocnienie funkcja, która przewiduje oczekiwany zwrot z działania w stanie, a następnie zgodnie z daną zasadą.

Funkcja Q jest też nazywana funkcją wartości działania.

Q-learning

#rl

W przypadku zdobywania wiedzy algorytm, który umożliwia agentowi nauczenie się optymalnej funkcji Q w procesie decyzyjnym Markowa przez zastosowanie równania Bellmana. Proces decyzji Markowa stanowi środowisko.

R

losowa zasada

#rl

W ramach uczenia się wzmocnienia zasady, które pozwalają losowo wybrać działanie.

uczenie się przez wzmocnienie (RL)

#rl

Rodzina algorytmów, które uczą się optymalnych zasad, których celem jest maksymalizacja zwrotu podczas korzystania z środowiska. Największą nagrodą jest na przykład zwycięstwo. Systemy uczenia się przez wzmocnienie mogą stać się eksperckimi w grach złożonych, oceniając sekwencje poprzednich ruchów, które ostatecznie doprowadziły do zwycięstw i sekwencji, które doprowadziły do przegranych.

Reinforcement learning from Human Feedback (RLHF)

#generacjaAI
#rl

Wykorzystanie opinii weryfikatorów w celu poprawy jakości odpowiedzi modelu. Na przykład mechanizm RLHF może prosić użytkowników o ocenę jakości odpowiedzi modelu za pomocą emotikona 👍 lub 👎. Dzięki temu będą w przyszłości dostosowywać swoje odpowiedzi.

bufor powtórki

#rl

W algorytmach podobnych do DQN pamięć używana przez agenta do przechowywania przejść stanu do użycia w ponownym odtwarzaniu.

powrót

#rl

W kontekście uczenia się ze względu na pewne zasady i konkretny stan zwrotem jest suma wszystkich nagród, które agent oczekuje za zrealizowanie zasad ze stanu do końca odcinka. Agent uwzględnia opóźniony charakter oczekiwanych nagród przez rabaty w zależności od zmian stanu wymaganych do odebrania nagrody.

Dlatego jeśli czynnik rabatu wynosi \(\gamma\), i \(r_0, \ldots, r_{N}\)oznaczaj nagrody do końca odcinka, obliczenie zwrotu wygląda tak:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

kupon promocyjny

#rl

W ramach uczenia się przez wzmocnienie wartość liczbowa jest równoznaczna z wykonaniem działania w stanie określonym przez środowisko.

S

state

#rl

W procesie uczenia się przez wzmocnienie wartości parametrów opisujące bieżącą konfigurację środowiska są używane przez agenta do wybierania działania.

funkcja wartość-stanu

#rl

Synonim funkcji Q-function.

T

tabelaryczna nauka Q

#rl

W ramach uczenia się przez wzmocnienie zaimplementuj naukę Q, wykorzystując tabelę do przechowywania funkcji Q dla każdej kombinacji stanu i działania.

sieć docelowa

#rl

W głębokim Q-learningu, sieci neuronowej stabilnie odzwierciedlającej główną sieć neuronową, w której główna sieć neuronowa implementuje funkcję Q lub zasadę. Następnie możesz wytrenować sieć główną na podstawie wartości Q prognozowanych przez sieć docelową. Zapobiega to zapętlaniu informacji, które występują w przypadku, gdy główna sieć trenuje wartości prognozowane przez siebie. Dzięki unikaniu tego efektu zwiększanie stabilności trenowania.

warunek zakończenia

#rl

W przypadku uczenia się wzmocnienia warunki określające, kiedy kończy się odcinek, np. gdy agent osiąga określony stan lub przekracza liczbę zmian stanu. Na przykład w kółkach i krzyżykach odcinek jest kończony, gdy gracz oznaczy trzy kolejne spacje lub wszystkie spacje.

trajektoria

#rl

W ramach uczenia się wzmacniającego sekwencja ciągów reprezentujących sekwencję stanów agenta, gdzie każda kropka odpowiada stanowi, działaniu, nagrodzie i następnemu stanowi zmiany stanu.