機器學習詞彙表:強化學習

透過集合功能整理內容 你可以依據偏好儲存及分類內容。

本頁提供 Reforceforcement Learning 詞彙表。如要查看所有詞彙詞彙,請按這裡

A

動作

#rl

「強化學習」中,代理程式環境狀態之間轉換的機制。代理程式使用政策來選擇動作。

服務專員

#rl

「強化學習」中,使用政策的實體最大化,因為在環境狀態之間轉換時,可能會獲得預期的退貨

B

Bellman 方程式

#rl

在強化學習中,下列 Q 函式符合以下身分:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

強化學習演算法會透過下列更新規則,套用這個身分來建立Q-learning

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]

除了強化學習以外,Bellman 方程式也適合用於動態程式設計。請參閱 Bellman 方程式的維基百科條目

C

專家

#rl

Deep Q-Network 的同義詞。

D

深度 Q 網路 (DQN)

#rl

Q-learning 是深層類神經網路,可預測 Q-函數

Critic 是 Deep Q-Network 的同義詞。

DQN

#rl

深度 Q-Network 的縮寫。

E

environment

#rl

強化學習中,包含代理程式的世界,可讓服務專員觀察世界的狀態。舉例來說,呈現的世界可以是西洋棋遊戲,或是實體迷宮等遊戲。代理程式對環境套用「動作」時,環境之間會轉換。

劇集

#rl

在強化學習中,代理程式每次重複嘗試執行環境

eresilon greedy 政策

#rl

強化學習中一項政策,可遵循隨機政策和上游機率計畫,否則可能為灰色政策。舉例來說,如果 epsilon 為 0.9,就表示該政策有 90% 的時間遵循隨機政策,而 10% 的時間則會採用灰色政策。

隨著連續劇發生,演算法會減少 epsilon 的值,從遵循隨機政策改為採用灰色政策。調整政策後,代理程式會先隨機探索環境,然後巧妙地利用隨機探索的結果。

體驗重播

#rl

強化學習是使用 DQN 技巧,可降低訓練資料中的時間關聯性。代理程式會將狀態轉換儲存在「重播緩衝區」中,接著從重播緩衝區進行轉換以建立訓練資料。

G

灰色政策

#rl

在強化學習中,一項政策一律會選擇預期最高的回傳動作。

M

Markov 決策程序 (MDP)

#rl

這張圖表代表決策決策 (或 動作) 以可假設 Markov 屬性保有的假設,方便您瀏覽一系列狀態。在強化學習中,狀態之間的轉換會傳回數值獎勵

Markov 屬性

#rl

特定環境的屬性,其中狀態轉換完全取決於目前狀態和代理程式動作中的資訊隱含。

P

policy

#rl

在強化學習中,代理程式的機率對應從狀態對應至動作

Q

Q 函式

#rl

「強化學習」中,這個函式會預測在狀態時,透過執行動作動作

Q 函式也稱為狀態動作值函式

學習學習

#rl

「強化學習」中,這個演算法可讓 Agent 透過套用 Bellman 方程式,學習 Markov 決策程序的最佳 Q 函式。Markov 決策程序會模擬環境

R

隨機政策

#rl

「強化學習」中,用於隨機選擇一項動作政策

強化學習 (RL)

#rl

一組用於瞭解最佳政策的演算法,目標是在與環境互動時盡量提高退貨。舉例來說,大部分遊戲的終極獎勵都是勝利。 強化學習系統可評估先前的遊戲動作順序,進而贏得最終勝利關卡,進而成為複雜遊戲的專家。

重播緩衝區

#rl

在類似 DQN 的演算法中,代理程式用來儲存狀態轉換的記憶體會用於體驗重播

回傳

#rl

強化學習中,在特定政策和特定狀態下,傳回等於 agent狀態訂閱結尾時,所收到的所有獎勵總和。服務專員會根據取得獎勵所需的狀態轉換,提供折扣來考量預期獎勵的延遲性質。

因此,如果折扣係數為 \(\gamma\),且 \(r_0, \ldots, r_{N}\)表示在劇集結束前的獎勵,則退貨計算方式如下:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

獎勵

#rl

在強化學習中,環境定義了狀態動作數值結果。

S

#rl

在強化學習中,說明環境目前設定的參數值,代理程式用來選擇動作

狀態動作值函式

#rl

Q-function 的同義詞。

T

表格型 Q 學習

#rl

強化學習中,使用資料表來儲存狀態動作的每個組合儲存 Q 函式

目標網路

#rl

深度學習 Q 學習中,類神經網路是主要類神經網路的近似值,其中主要類神經網路可實作 Q 函式政策。接著,您可以訓練目標網路預測的 Q 值中的主要網路。因此,您可以防止主要網路在自行預測的 Q 值上進行訓練時產生意見回饋循環。透過避免這項意見回饋,訓練的穩定性就會提高。

終止條件

#rl

強化學習中,用來決定劇集「when numbers」或例如,在井字遊戲 (也稱為「打鼾和十字」) 中,當玩家標示為三個連續的空格或所有空格都標示違規時,單集節目就會終止。

軌跡

#rl

「強化學習」中,元組的序列依序代表代理程式狀態一系列轉換,其中每個元組都對應至狀態、動作獎勵以及後續狀態轉換的下一個狀態。