本页面包含强化学习术语表术语。如需了解所有术语表,请点击此处。
A
操作
在强化学习中,代理在环境的状态之间过渡的机制。该代理使用政策来选择操作。
代理
在强化学习中,实体使用政策从环境的状态之间过渡中获得尽可能高的预期回报。
B
贝尔曼方程
在强化学习中,最佳 Q 函数可满足以下身份:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
强化学习算法通过以下更新规则使用此身份创建 Q-learning:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
除了强化学习外,贝尔曼方程式还有应用于动态编程的应用。请参阅关于贝尔曼方程的维基百科条目。
C
专家评价
与深度 Q-Network 的含义相同。
D
深度 Q 网络 (DQN)
在 Q-learning 中,一种可预测 Q 函数的深度神经网络。
专家是深度 Q 网络的同义词。
DQN 数额
深度 Q-Network 的缩写。
E
environment
在强化学习中,包含代理并允许代理观察该世界的状态的世界。例如,象征性世界可以是象棋等游戏,也可以是迷宫等实体世界。当代理将操作应用于环境时,环境会在状态之间转换。
剧集
EPSILON 贪污内容政策
在强化学习中,如果政策遵循 epsilon 概率的随机政策,否则遵循贪恋政策。例如,如果 epsilon 为 0.9,则政策有 90% 的时间遵循随机政策,而 90% 的时间遵循贪心政策。
在连续的分集中,该算法会降低 epsilon 的值,以便从随机政策改为贪心政策。通过更改政策,代理首先会随机探索环境,然后一味地利用随机探索的结果。
体验重放
在强化学习中,一种 DQN 技术用于降低训练数据中的时间相关性。代理将状态转换存储在重放缓冲区中,然后从重放缓冲区对转换进行采样,以创建训练数据。
G
与 Gredy 有关的政策
M
马尔可夫决策过程 (MDP)
表示决策(或操作)的决策模型的图,该图以 Markov 属性为前提假设的一系列状态。在强化学习中,这些状态之间的转换会返回数值奖励。
马尔可夫房产
某些环境的属性,其中状态转换完全取决于当前状态和代理的操作中隐含的信息。
P
policy
问
Q 函数
在强化学习中,该函数预测在满足某个状态后执行某个操作,然后遵循某个政策预期的预期操作。
Q 函数也称为“状态操作价值函数”。
快速学习
在强化学习中,这种算法可以通过应用贝尔曼方程,让代理学习马尔可夫决策过程的最佳Q 函数。马尔可夫决策过程为环境建模。
R
随机政策
强化学习 (RL)
一系列学习最佳政策的算法,目标是在与环境互动时最大限度地提高回报。例如,大多数游戏的最终奖励就是胜利。 强化学习系统可以评估之前最终获胜的动作序列和最终导致失败的序列,从而成为玩复杂游戏的专家。
重放缓冲区
在类似 DQN 的算法中,代理用于存储状态转换的内存,以便在体验重放中使用。
return
在强化学习中,给定特定政策和特定状态后,返回代理在遵循政策从状态到分集末尾时预期收到的所有奖励的总和。代理根据获得奖励所需的状态转换来折扣奖励,以说明预期奖励的延迟特性。
因此,如果折扣系数为 \(\gamma\),并且 \(r_0, \ldots, r_{N}\)表示直到剧集结束,奖励计算结果如下:
奖励
在强化学习中,执行处于状态的操作的数值结果(根据环境定义)。
S
state
在强化学习中,用于描述环境当前配置的参数值,agent 使用它们来选择action。
状态-操作值函数
与 Q 函数的含义相同。
T
表格式 Q-learning
在强化学习中,通过使用表来存储针对状态和操作的每个组合的 Q 函数,实现 Q 学习。
目标广告网络
在 Deep Q-learning 中,它是一个与主神经网络具有稳定近似值的神经网络,其中主神经网络实现了 Q 函数或政策。然后,您可以使用目标网络预测的 Q 值来训练主网络。因此,您可以阻止在主网络针对其自身预测的 Q 值进行训练时发生的反馈循环。通过避免此类反馈,训练稳定性提高了。
终止条件
在强化学习中,确定分集结束时间的条件,例如当代理达到特定状态或超过阈值状态转换次数时。例如,在 tic-tac-toe(也称为“零点”和“组合”)中,当玩家标记三个连续空格或所有空格都标记完毕时,分集就会终止。