Słowniczek z systemami uczącymi się: uczenie się przez wzmacnianie

Ta strona zawiera terminy z glosariusza uczenia się przez wzmacnianie. Aby zobaczyć wszystkie terminy ze glosariusza, kliknij tutaj.

O

działanie

#rl

W uczeniu przez wzmacnianie mechanizm, za pomocą którego agent przechodzi między stanami środowiska. Agent wybiera działanie za pomocą zasady.

agent

#rl

W ramach uczenia przez wzmacnianie jednostka, która stosuje zasady do maksymalizowania oczekiwanego zwrotu uzyskiwanego dzięki przechodzeniu między stanami środowiska.

Ogólnie rzecz biorąc, agent to oprogramowanie, które samodzielnie planuje i wykonuje serię działań w dążeniu do określonego celu oraz potrafi się dostosować do zmian w swoim środowisku. Na przykład agenty oparte na LLM mogą używać LLM do generowania planu, zamiast stosować zasadę uczenia przez wzmacnianie.

B

Równanie Bellmana

#rl

W przypadku uczenia się przez wzmacnianie tożsamość stosowana przez optymalną funkcję Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algorytmy uczenia się przez wzmacnianie stosują tę tożsamość, aby utworzyć proces uczenia się przez wzmacnianie za pomocą tej reguły aktualizacji:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Oprócz uczenia się przez wzmacnianie równanie Bellmana ma też zastosowania w programowaniu dynamicznym. Zobacz artykuł na temat równania Bellmana w Wikipedii.

C

krytyk

#rl

Synonim terminu Deep Q-Network.

D

Sieć głębokich Q (DQN)

#rl

W ramach Q-learningu głęboka sieć neuronowa, która prognozuje funkcje Q.

Słowo krytyczny jest synonimem słowa Deep Q-Network.

numer DQN

#rl

Skrót od Deep Q-Network.

E

środowisko

#rl

W ramach uczenia się przez wzmacnianie świat zawierający agenta i umożliwiający mu obserwowanie stanu świata. Może to być np. gra, np. szachy, albo świat fizyczny, taki jak labirynt. Gdy agent zastosuje działanie do środowiska, środowisko zostanie przełączone między stanami.

odcinek

#rl

W ramach uczenia się przez wzmacnianie każda powtórzona próba poznania środowiska przez agenta.

zasady dotyczące zachłanności Episilon

#rl

W ramach uczenia się przez wzmacnianie jest to zasada, która jest zgodna z zasadami losowej z prawdopodobieństwem epsilonowym, a w innym przypadku zasadami zachłannymi. Jeśli np.epsilon ma wartość 0,9, zasada przez 90% przypadków stosuje zasadę losową, a w 10% – zachłanną.

W kolejnych odcinkach algorytm zmniejsza wartość epsilona, aby przejść z zasady opartej na losowości na zasadzie zachłannej. Zmieniając zasadę, agent najpierw losowo bada środowisko, a potem z przyjemnością wykorzystuje wyniki losowej eksploracji.

ponowne odtwarzanie

#rl

W uczeniu przez wzmacnianie jest to metoda DQN używana do ograniczania korelacji czasowych w danych treningowych. Agent przechowuje przejścia stanu w buforze odtwarzania, a potem próbkuje przejścia z bufora odtwarzania w celu utworzenia danych treningowych.

G

zasady dotyczące zachłanności

#rl

W ramach uczenia się przez wzmacnianie jest to zasada, która zawsze wybiera działanie zapewniające największy oczekiwany zwrot.

P

Proces decyzyjny Markowa (MDP)

#rl

Wykres przedstawiający model podejmowania decyzji, w którym podejmowane są decyzje (lub działania), aby poruszać się po sekwencji stanów przy założeniu, że obowiązuje właściwość Markowa. W przypadku uczenia się przez wzmacnianie te przejścia między stanami zwracają nagrodę liczbową.

Właściwość Markowa

#rl

Właściwość niektórych środowisk, w przypadku których przejście stanu zależy w całości od informacji pośrednich w bieżącym stanie i jego działaniu agenta.

P

policy

#rl

W ramach uczenia się przez wzmacnianie mapowanie prawdopodobieństwa agenta z stanów na działania

P

Funkcja Q

#rl

W uczeniu przez wzmacnianie funkcja, która prognozuje oczekiwany zwrot wynikający z wykonania działania w stanie, a następnie przestrzegania danej zasady.

Funkcja Q jest też nazywana funkcją wartości działania stanu.

Q-learning

#rl

Algorytm uczenia się przez wzmacnianie, który pozwala agentowi poznać optymalną funkcję Q w procesie decyzyjnym Markowa, stosując równanie Bellmana. Proces decyzyjny Markowa modeluje środowisko.

R

zasady losowe

#rl

W przypadku uczenia się przez wzmacnianie zasada, która wybiera działanie losowo.

uczenie się przez wzmacnianie

#rl

Rodzina algorytmów, które uczą optymalnej zasad, których celem jest maksymalizacja zwrotu podczas interakcji z środowiskiem. Na przykład największą nagrodą w większości gier jest zwycięstwo. Systemy uczenia się przez wzmacnianie mogą być ekspertem w graniu w złożone gry, oceniając sekwencje wcześniejszych ruchów, które doprowadziły do wygranych i sekwencji, które doprowadziły do przegranych.

Uczenie się przez wzmacnianie na podstawie opinii człowieka (RLHF)

#generatywna AI
#rl

Wykorzystanie opinii weryfikatorów w celu poprawy jakości odpowiedzi modelu. Na przykład mechanizm RLHF może poprosić użytkowników o ocenę jakości odpowiedzi modelu za pomocą emotikona 👍 lub 👎. Na podstawie tych informacji system może później dostosować swoje przyszłe odpowiedzi.

bufor powtórki

#rl

W algorytmach podobnych do DQN pamięć używana przez agenta do przechowywania przejść stanu na potrzeby ponownego odtwarzania.

return

#rl

W uczeniu przez wzmacnianie, przy uwzględnieniu określonej zasady i określonego stanu zwrot to suma wszystkich nagród, których agent oczekuje za przestrzeganie zasad od stanu do końca odcinka. Agent uwzględnia opóźnienie w otrzymaniu nagrody, rabatując je zgodnie ze zmianami stanu wymaganymi do uzyskania nagrody.

Jeśli więc współczynnik rabatu wynosi \(\gamma\), a \(r_0, \ldots, r_{N}\)wskazuje nagrody do końca odcinka, obliczenia zwrotów będą wyglądać tak:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

kupon promocyjny

#rl

W przypadku uczenia się przez wzmacnianie to numeryczny wynik podjęcia działania w danym stanie, zdefiniowany przez środowisko.

S

state

#rl

W przypadku uczenia się przez wzmacnianie wartości parametrów opisujących bieżącą konfigurację środowiska, których agent używa do wyboru działania.

funkcja wartości działania stanu

#rl

Synonim terminu funkcja Q.

T

tabelaryczne Q-learning

#rl

W ramach uczenia się przez wzmacnianie wdrożenie nauki Q przy użyciu tabeli do przechowywania funkcji Q dla każdej kombinacji stanu i działania.

sieć docelowa

#rl

W przypadku głębokiego Q-learningu sieć neuronowa będąca stabilnym przybliżeniem głównej sieci neuronowej, w której główna sieć neuronowa implementuje funkcję Q lub zasadę. Następnie możesz wytrenować główną sieć z wykorzystaniem wartości Q przewidzianych przez sieć docelową. Pozwala to uniknąć pętli informacji zwrotnych, która występuje, gdy główna sieć trenuje według samych prognozowanych wartości Q. Dzięki unikaniu tych sygnałów zwiększa się stabilność trenowania.

warunek zakończenia

#rl

W uczeniu przez wzmacnianie warunki określające zakończenie odcinka, np. gdy agent osiągnie określony stan lub przekroczy progową liczbę przejść stanów. Na przykład w krzyżyku krzyżyk (znanym też jako znaków zapytania i krzyżyków) odcinek kończy się, gdy gracz oznaczy 3 kolejne spacje lub oznaczy wszystkie spacje.

trajektoria

#rl

W obrębie uczenia się przez wzmacnianie jest to sekwencja elementów reprezentujących sekwencję przejścia stanu agenta, gdzie każda krotka odpowiada stanowi: działanie, nagroda i następny stan dla danego przejścia.