Słowniczek z systemami uczącymi się: uczenie się przez wzmacnianie

Ta strona zawiera hasła z glosariusza uczenia się przez wzmacnianie. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.

A

działanie

#rl

nauce przez wzmacnianie jest to mechanizm, za pomocą którego agent przechodzi między stanami środowiska. Agent wybiera działanie na podstawie polityki.

agent

#rl

W nauczaniu wzmacniającym jest to podmiot, który korzysta z reguły, aby zmaksymalizować oczekiwany zwrot uzyskany z przejścia między stanami otoczenia.

Ogólnie rzecz biorąc, agent to oprogramowanie, które autonomicznie planuje i wykonuje sekwencję działań w celu osiągnięcia celu, przy czym jest w stanie dostosować się do zmian w swoim środowisku. Na przykład agent oparty na LLM może używać LLM do generowania planu zamiast stosować zasady uczenia wzmacniającego.

B

równanie Bellmana

#rl

W uczeniu ze wzmocnieniem ta tożsamość jest zaspokajana przez optymalną funkcję Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algorytmy uczenia się przez wzmocnienie wykorzystują tę tożsamość do tworzenia uczenia się przez wzmocnienie Q za pomocą tej reguły aktualizacji:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Poza uczeniem wzmacniającym równanie Bellmana ma zastosowanie w programowaniu dynamicznym. Zapoznaj się z  artykułem na temat równania Bellmana w Wikipedii.

C

krytyk

#rl

Synonim Deep Q-Network.

D

Deep Q-Network (DQN)

#rl

Q-learningu wykorzystuje się głęboką sieci neuronową, która prognozuje funkcje Q.

Krytyk to synonim sieci Deep Q.

DQN

#rl

Skrót od Deep Q-Network.

E

środowisko

#rl

W nagradzaniu świat to świat, który zawiera agenta i pozwala mu obserwować jego stan. Przedstawiany świat może być na przykład grą w szachy lub fizycznym labiryntem. Gdy agent zastosuje działanie do środowiska, środowisko przechodzi między stanami.

odcinek

#rl

W nauce ze wzmocnieniem każda z powtarzanych prób agenta polega na uczeniu się środowiska.

zasada epsilon-greedy

#rl

W nauczaniu ze wzmocnieniem zasada, która z poziomem prawdopodobieństwa równym epsilon jest losowa lub żarłoczna. Jeśli na przykład epsilon = 0,9, to w 90% przypadków polityka będzie zgodna z polityka losową, a w 10% – z polityka chciwą.

W kolejnych odcinkach algorytm zmniejsza wartość epsilona, aby przejść od stosowania losowej strategii do stosowania strategii łapczywej. Gdy zmieniasz politykę, agent najpierw losowo eksploruje środowisko, a potem wykorzystuje wyniki tej eksploracji.

doświadczenie odtwarzania

#rl

W uczeniu się przez wzmocnienie technika DQN służąca do zmniejszania korelacji czasowych w danych treningowych. Agent przechowuje przejścia stanu w buforze odtwarzania, a potem pobiera próbki przejść z bufora odtwarzania, aby utworzyć dane treningowe.

G

zasada zachłanności

#rl

W uczeniu ze wzmocnieniem polityka, która zawsze wybiera działanie o najwyższym oczekiwanym zwrocie.

M

Proces decyzyjny Markowa (MDP)

#rl

Graf przedstawiający model podejmowania decyzji, w którym decyzje (czyli działania) są podejmowane w celu przejścia przez sekwencję stanów przy założeniu, że obowiązuje właściwość Markowa. W nauce ze wzmocnieniem te przejścia między stanami zwracają liczbową nagrodę.

Właściwość Markowa

#rl

Właściwość niektórych środowisk, w których przejścia między stanami są całkowicie określane przez informacje zawarte w bieżącym stanie i działaniu agenta.

P

zasada

#rl

W uczeniu się przez wzmacnianie agent korzysta z mapowania probabilistycznego stanów na działania.

P

Funkcja Q

#rl

W nauczaniu wzmacniającym jest to funkcja, która przewiduje oczekiwany zwrot z wykonania działaniastanie, a następnie działa zgodnie z danym regułem.

Funkcja Q jest też nazywana funkcją wartości stanu i działania.

Q-learning

#rl

Nauka wzmacniająca to algorytm, który pozwala agentowi uczyć się optymalnej funkcji Q procesu decyzyjnego Markova przez zastosowanie równania Bellmana. Proces decyzyjny Markowa modeluje otoczenie.

R

zasada losowa

#rl

nauce wzmacniającej: polityka, która losowo wybiera działanie.

uczenie się przez wzmacnianie (RL);

#rl

Rodzina algorytmów, które uczą się optymalnej polityki, której celem jest maksymalizacja zysku w interakcjach z otoczeniem. Na przykład w większości gier ostateczną nagrodą jest zwycięstwo. Systemy uczenia się przez wzmacnianie mogą stać się ekspertami w zaawansowanych grach, oceniając sekwencję poprzednich ruchów, które doprowadziły do wygranej, i sekwencje, które doprowadziły do przegranej.

Uczenie przez wzmacnianie na podstawie opinii użytkowników (RLHF)

#generativeAI
#rl

Korzystanie z opinii weryfikatorów, aby poprawić jakość odpowiedzi modelu. Na przykład mechanizm RLHF może prosić użytkowników o ocena jakości odpowiedzi modelu za pomocą emotikonów 👍 lub 👎. System może następnie dostosować swoje przyszłe odpowiedzi na podstawie tych informacji.

bufor powtórki

#rl

W przypadku algorytmów podobnych do DQN pamięć używana przez agenta do przechowywania przejść stanu na potrzeby odtwarzania doświadczeń.

powrót

#rl

W nauce wzmacniającej, przy założeniu określonej strategii i stanu, zwrot to suma wszystkich nagród, które agent oczekuje otrzymać, gdy będzie przestrzegać strategii od stanu do końca sesji. Agent uwzględnia opóźnienie w przyznawaniu nagród, stosując dyskonto na podstawie stanów przejściowych wymaganych do uzyskania nagrody.

Jeśli więc współczynnik rabatu wynosi \(\gamma\), a  \(r_0, \ldots, r_{N}\) oznacza nagrody do końca odcinka, to obliczenie zwrotu wygląda tak:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

nagrody

#rl

W uczeniu się przez wzmocnienie jest to wynik liczbowy wykonania działaniastanie określonym przez środowisko.

S

stan

#rl

W nagradzaniu wartości parametrów opisujące bieżącą konfigurację środowiska, których agent używa do wyboru działania.

funkcja wartości stanu-działania

#rl

Synonim funkcji Q.

T

tablicowy algorytm Q-learning

#rl

W uczeniu ze wzmocnieniem można stosować nauczanie Q, korzystając z tabeli do przechowywania funkcji Q dla każdej kombinacji stanudziałania.

sieć docelowa

#rl

uczeniu głębokim Q-learning jest to sieć neuronowa, która jest stabilną przybliżeniem głównej sieci neuronowej, gdzie główna sieć neuronowa implementuje albo funkcję Q, albo zasady. Następnie możesz trenować główną sieć na podstawie wartości Q przewidywanych przez sieć docelową. Dzięki temu zapobiegasz pętli sprzężenia zwrotnego, która występuje, gdy główna sieć uczy się na podstawie wartości Q przewidywanych przez nią samą. Dzięki temu stabilność treningu się zwiększy.

warunek zakończenia,

#rl

W nauce ze wzmocnieniem warunki określające, kiedy kończy się etap, takie jak osiągnięcie przez agenta określonego stanu lub przekroczenie progowego poziomu liczby przejść między stanami. Na przykład w grze kółko i krzyżyk (znanej też jako kółko i krzyżyk) rozgrywka kończy się, gdy gracz zaznaczy 3 kolejne pola lub gdy zaznaczy wszystkie pola.

trajektoria

#rl

W nauce ze wzmocnieniem sekwencja tupli reprezentujących sekwencję stanów agenta, przy czym każda tupla odpowiada stanowi, działaniu, nagradzeniu i następnemu stanowi w przypadku danego przejścia między stanami.