# 机器学习术语表：强化学习

## 贝尔曼方程

$Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')$

$Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right]$

## 深度 Q 网络 (DQN)

Q 学习中，一种预测 Q 函数的深度神经网络

Critic 是深度 Q-Network 的同义词。

Q 函数也称为状态-操作值函数

#生成式 AI
## return

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

Q 函数的同义词。

## 轨迹

