このページでは、強化学習の用語集について説明します。すべての用語集の用語については、こちらをクリックしてください。
A
アクション
強化学習では、エージェントが環境の状態間を遷移するメカニズム。エージェントは、ポリシーを使用してアクションを選択します。
エージェント
強化学習では、ポリシーを使用するエンティティが、環境の状態間の移行から予想されるリターンを最大化します。
B
ベルマン方程式
強化学習では、次の ID が最適な Q-function で満たされます。
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
強化学習アルゴリズムは、次の更新ルールを使用して、この ID を適用して Q-learning を作成します。
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
Bellman 方程式は、強化学習だけでなく、動的プログラミングにも応用されています。 Bellman Equation の Wikipedia のエントリをご覧ください。
C
評論家
ディープ Q ネットワークと同義。
D.
ディープ Q ネットワーク(DQN)
Q ラーニングでは、Q-function を予測するディープ ニューラル ネットワークを使用します。
批評家(Critic)は、ディープ Q ネットワークの類義語です。
DQN
Deep Q-Network の略です。
E
environment
強化学習では、エージェントが含まれており、エージェントがその状態を監視できるようにします。たとえば、チェスのようなゲームや、迷路のような物理世界を表現できます。エージェントが環境にアクションを適用すると、環境が状態間で遷移します。
エピソード
強化学習では、エージェントが環境を学習するためにこの繰り返しを繰り返しています。
イプシロンの品位に関するポリシー
強化学習では、イプシロンの確率でランダム ポリシーに従うか、またはポリシーに従うポリシーになります。たとえば、イプシロンが 0.9 の場合、このポリシーは 90% の確率でランダムなポリシーに従い、10% の確率でポリシーとポリシーが適用されます。
連続したエピソードでは、アルゴリズムはイプシロンの値を低減して、ランダムなポリシーから最大のポリシーにシフトします。ポリシーをシフトすることにより、エージェントはまず環境をランダムに探索し、ランダムな探索の結果を積極的に利用します。
エクスペリエンスのリプレイ
強化学習では、トレーニング データの時間的相関を減らすために DQN 手法が使用されます。エージェントは、状態遷移をリプレイ バッファに格納し、リプレイ バッファからの遷移をサンプリングしてトレーニング データを作成します。
G
おいしそうなポリシー
強化学習では、最も期待されるリターンのアクションを常に選択するポリシーがあります。
M
マルコフ決定プロセス(MDP)
マルコフ プロパティが仮定されている一連の状態を移動するため、意思決定(アクション)が行われる意思決定モデルを示すグラフ。強化学習では、状態間の遷移は数値の報酬を返します。
マルコフのプロパティ
特定の環境のプロパティ。状態遷移は、現在の状態とエージェントのアクションに暗黙的に含まれる情報によって完全に決定されます。
P
policy
強化学習では、エージェントの確率を状態からアクションにマッピングします。
Q
Q 関数
強化学習では、状態でアクションを実行し、特定のポリシーに従うことで想定されるリターンを予測する関数を作成します。
Q 関数は状態アクション値関数とも呼ばれます。
Q ラーニング
強化学習では、エージェントが Bellman 方程式を適用して Markov 決定プロセスの最適な Q 関数を学習できるようにするアルゴリズムを作成します。マルコフの決定プロセスは環境をモデル化します。
(右)
ランダム ポリシー
強化学習では、アクションをランダムに選択するポリシーを使用します。
強化学習(RL)
最適なポリシーを学習するアルゴリズム ファミリー。その目標は、環境を操作する際のリターンを最大化することです。たとえば、ほとんどのゲームで得られる最終的な報酬は勝利です。強化学習システムは、最終的に勝利につながったシーケンスのゲームと、最終的に勝敗につながったシーケンスを評価することで、複雑なゲームをプレイするエキスパートになることができます。
人間のフィードバックからの強化学習(RLHF)
評価者のフィードバックを使用して、モデルのレスポンスの品質を改善します。たとえば、RLHF メカニズムでは、ユーザーに 👍? または ⇥ の絵文字でモデルのレスポンスの品質を評価させることができます。システムは、そのフィードバックに基づいて将来のレスポンスを調整できるようになります。
再生用のバッファ
DQN に似たアルゴリズムでは、エージェントが状態遷移を保存するために使用するメモリがエクスペリエンスの再生で使用されます。
return
強化学習では、特定のポリシーと特定の状態に対して、戻り値はポリシーに従って状態からエピソードの終了までにエージェントが受け取ると予想されるすべての報酬の合計です。エージェントは、報酬を獲得するために必要な状態遷移に応じて報酬を割引することで、期待される報酬が遅延するという性質を考慮してください。
そのため、割引係数が \(\gamma\)で、 \(r_0, \ldots, r_{N}\)がエピソードの最後まで報酬を示す場合、返品計算は次のように行われます。
報奨
強化学習では、環境で定義された状態でアクションを行った結果。
S
使って
強化学習では、環境の現在の構成を記述するパラメータ値。エージェントがアクションの選択に使用します。
state-action value 関数
Q-function の類義語。
火
表形式の Q ラーニング
強化学習では、テーブルを使用してQ 学習を実装し、状態とアクションのすべての組み合わせの Q 関数を保存します。
ターゲット ネットワーク
ディープ ラーニングでは、メイン ニューラル ネットワークがQ 関数またはポリシーのいずれかを実装する、メイン ニューラル ネットワークの安定した近似であるニューラル ネットワーク。その後、ターゲット ネットワークで予測された Q 値に基づいてメイン ネットワークをトレーニングできます。そのため、メイン ネットワークで予測された Q 値に基づいてメイン ネットワークがトレーニングされるときに発生するフィードバック ループが回避されます。このフィードバックを回避することで、トレーニングの安定性が向上します。
終了条件
強化学習では、エージェントが特定の状態に達したときや状態遷移のしきい値を超えたときなど、エピソードがいつ終了するかを決定する条件。たとえば、tic-tac-toe(ノッチとクロスとも呼ばれます)では、プレーヤーが 3 つの連続するスペースをマークするか、すべてのスペースがマークされると、エピソードは終了します。
軌道
強化学習では、一連のエージェントの一連の状態を表す一連のタプル。各タプルは状態、アクション、報酬、特定の状態遷移の次の状態に対応します。