Ta strona zawiera hasła z glosariusza uczenia się przez wzmacnianie. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.
A
działanie
W nauce przez wzmacnianie jest to mechanizm, za pomocą którego agent przechodzi między stanami środowiska. Agent wybiera działanie na podstawie polityki.
agent
W nauczaniu wzmacniającym jest to podmiot, który korzysta z reguły, aby zmaksymalizować oczekiwany zwrot uzyskany z przejścia między stanami otoczenia.
Ogólnie rzecz biorąc, agent to oprogramowanie, które autonomicznie planuje i wykonuje sekwencję działań w celu osiągnięcia celu, przy czym jest w stanie dostosować się do zmian w swoim środowisku. Na przykład agent oparty na LLM może używać LLM do generowania planu zamiast stosować zasady uczenia wzmacniającego.
B
równanie Bellmana
W uczeniu ze wzmocnieniem ta tożsamość jest zaspokajana przez optymalną funkcję Q:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
Algorytmy uczenia się przez wzmocnienie wykorzystują tę tożsamość do tworzenia uczenia się przez wzmocnienie Q za pomocą tej reguły aktualizacji:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]
Poza uczeniem wzmacniającym równanie Bellmana ma zastosowanie w programowaniu dynamicznym. Zapoznaj się z artykułem na temat równania Bellmana w Wikipedii.
C
krytyk
Synonim Deep Q-Network.
D
Deep Q-Network (DQN)
W Q-learningu wykorzystuje się głęboką sieci neuronową, która prognozuje funkcje Q.
Krytyk to synonim sieci Deep Q.
DQN
Skrót od Deep Q-Network.
E
środowisko
W nagradzaniu świat to świat, który zawiera agenta i pozwala mu obserwować jego stan. Przedstawiany świat może być na przykład grą w szachy lub fizycznym labiryntem. Gdy agent zastosuje działanie do środowiska, środowisko przechodzi między stanami.
odcinek
W nauce ze wzmocnieniem każda z powtarzanych prób agenta polega na uczeniu się środowiska.
zasada epsilon-greedy
W nauczaniu ze wzmocnieniem zasada, która z poziomem prawdopodobieństwa równym epsilon jest losowa lub żarłoczna. Jeśli na przykład epsilon = 0,9, to w 90% przypadków polityka będzie zgodna z polityka losową, a w 10% – z polityka chciwą.
W kolejnych odcinkach algorytm zmniejsza wartość epsilona, aby przejść od stosowania losowej strategii do stosowania strategii łapczywej. Gdy zmieniasz politykę, agent najpierw losowo eksploruje środowisko, a potem wykorzystuje wyniki tej eksploracji.
doświadczenie odtwarzania
W uczeniu się przez wzmocnienie technika DQN służąca do zmniejszania korelacji czasowych w danych treningowych. Agent przechowuje przejścia stanu w buforze odtwarzania, a potem pobiera próbki przejść z bufora odtwarzania, aby utworzyć dane treningowe.
G
zasada zachłanności
W uczeniu ze wzmocnieniem polityka, która zawsze wybiera działanie o najwyższym oczekiwanym zwrocie.
M
Proces decyzyjny Markowa (MDP)
Graf przedstawiający model podejmowania decyzji, w którym decyzje (czyli działania) są podejmowane w celu przejścia przez sekwencję stanów przy założeniu, że obowiązuje właściwość Markowa. W nauce ze wzmocnieniem te przejścia między stanami zwracają liczbową nagrodę.
Właściwość Markowa
Właściwość niektórych środowisk, w których przejścia między stanami są całkowicie określane przez informacje zawarte w bieżącym stanie i działaniu agenta.
P
zasada
W uczeniu się przez wzmacnianie agent korzysta z mapowania probabilistycznego stanów na działania.
P
Funkcja Q
W nauczaniu wzmacniającym jest to funkcja, która przewiduje oczekiwany zwrot z wykonania działania w stanie, a następnie działa zgodnie z danym regułem.
Funkcja Q jest też nazywana funkcją wartości stanu i działania.
Q-learning
Nauka wzmacniająca to algorytm, który pozwala agentowi uczyć się optymalnej funkcji Q procesu decyzyjnego Markova przez zastosowanie równania Bellmana. Proces decyzyjny Markowa modeluje otoczenie.
R
zasada losowa
W nauce wzmacniającej: polityka, która losowo wybiera działanie.
uczenie się przez wzmacnianie (RL);
Rodzina algorytmów, które uczą się optymalnej polityki, której celem jest maksymalizacja zysku w interakcjach z otoczeniem. Na przykład w większości gier ostateczną nagrodą jest zwycięstwo. Systemy uczenia się przez wzmacnianie mogą stać się ekspertami w zaawansowanych grach, oceniając sekwencję poprzednich ruchów, które doprowadziły do wygranej, i sekwencje, które doprowadziły do przegranej.
Uczenie przez wzmacnianie na podstawie opinii użytkowników (RLHF)
Korzystanie z opinii weryfikatorów, aby poprawić jakość odpowiedzi modelu. Na przykład mechanizm RLHF może prosić użytkowników o ocena jakości odpowiedzi modelu za pomocą emotikonów 👍 lub 👎. System może następnie dostosować swoje przyszłe odpowiedzi na podstawie tych informacji.
bufor powtórki
W przypadku algorytmów podobnych do DQN pamięć używana przez agenta do przechowywania przejść stanu na potrzeby odtwarzania doświadczeń.
powrót
W nauce wzmacniającej, przy założeniu określonej strategii i stanu, zwrot to suma wszystkich nagród, które agent oczekuje otrzymać, gdy będzie przestrzegać strategii od stanu do końca sesji. Agent uwzględnia opóźnienie w przyznawaniu nagród, stosując dyskonto na podstawie stanów przejściowych wymaganych do uzyskania nagrody.
Jeśli więc współczynnik rabatu wynosi \(\gamma\), a \(r_0, \ldots, r_{N}\) oznacza nagrody do końca odcinka, to obliczenie zwrotu wygląda tak:
nagrody
W uczeniu się przez wzmocnienie jest to wynik liczbowy wykonania działania w stanie określonym przez środowisko.
S
stan
W nagradzaniu wartości parametrów opisujące bieżącą konfigurację środowiska, których agent używa do wyboru działania.
funkcja wartości stanu-działania
Synonim funkcji Q.
T
tablicowy algorytm Q-learning
W uczeniu ze wzmocnieniem można stosować nauczanie Q, korzystając z tabeli do przechowywania funkcji Q dla każdej kombinacji stanu i działania.
sieć docelowa
W uczeniu głębokim Q-learning jest to sieć neuronowa, która jest stabilną przybliżeniem głównej sieci neuronowej, gdzie główna sieć neuronowa implementuje albo funkcję Q, albo zasady. Następnie możesz trenować główną sieć na podstawie wartości Q przewidywanych przez sieć docelową. Dzięki temu zapobiegasz pętli sprzężenia zwrotnego, która występuje, gdy główna sieć uczy się na podstawie wartości Q przewidywanych przez nią samą. Dzięki temu stabilność treningu się zwiększy.
warunek zakończenia,
W nauce ze wzmocnieniem warunki określające, kiedy kończy się etap, takie jak osiągnięcie przez agenta określonego stanu lub przekroczenie progowego poziomu liczby przejść między stanami. Na przykład w grze kółko i krzyżyk (znanej też jako kółko i krzyżyk) rozgrywka kończy się, gdy gracz zaznaczy 3 kolejne pola lub gdy zaznaczy wszystkie pola.
trajektoria
W nauce ze wzmocnieniem sekwencja tupli reprezentujących sekwencję stanów agenta, przy czym każda tupla odpowiada stanowi, działaniu, nagradzeniu i następnemu stanowi w przypadku danego przejścia między stanami.