本文固定在有限状态、有限动作、无限时域、折扣因子 γ∈(0,1) 的 MDP 框架下讨论。这样既足够覆盖强化学习中的核心思想,也能把贝尔曼方程写成清晰的矩阵与算子形式。
后续关于最优控制、值迭代与策略迭代的内容见 Note 2。
1. 强化学习的基本对象
一个折扣型马尔可夫决策过程可以写成
M=(S,A,P,r,γ).
其中:
- S 是状态空间。
- A 是动作空间。
- P(s′∣s,a) 是转移概率。
- r(s,a) 是一步期望奖励。
- γ∈(0,1) 是折扣因子,控制“眼前收益”和“长期收益”的权衡。
强化学习的基本过程是:智能体在状态 st 采取动作 at,环境给出奖励 rt 并转移到下一个状态 st+1。
一条策略 π(a∣s) 描述了在状态 s 下选择动作 a 的概率。给定策略以后,系统的随机性只来自两部分:策略本身的采样,以及环境转移的采样。
这里最关键的一点是:一旦策略固定,控制问题就退化成了一个随机过程上的评估问题。 这就是值函数与贝尔曼方程出现的原因。
2. Return 与值函数
2.1 Return
从时刻 t 开始的折扣回报定义为
Gt=k=0∑∞γkrt+k.
它代表从“现在”开始一路走下去能拿到的总收益。由于 γ<1,远期奖励会被逐步折扣,因此在有界奖励下该级数是收敛的。
2.2 状态值函数与动作值函数
给定策略 π,定义:
Vπ(s)=Eπ[Gt∣st=s],
Qπ(s,a)=Eπ[Gt∣st=s,at=a].
其中:
- Vπ(s) 衡量“在状态 s,以后都按照策略 π 行动”的长期质量。
- Qπ(s,a) 衡量“先在 s 执行动作 a,之后再遵循 π”的长期质量。
于是策略评估的目标就是:在给定 π 的前提下,求出 Vπ 或 Qπ。
3. 贝尔曼期望方程
值函数之所以重要,是因为它满足一种递归关系。把 return 拆开一项:
Gt=rt+γGt+1.
对条件期望取平均,就得到
Vπ(s)=Eπ[rt+γVπ(st+1)∣st=s].
把条件期望写展开,可得
Vπ(s)=a∑π(a∣s)[r(s,a)+γs′∑P(s′∣s,a)Vπ(s′)].
这就是贝尔曼期望方程。
同理,动作值函数满足
Qπ(s,a)=r(s,a)+γs′∑P(s′∣s,a)a′∑π(a′∣s′)Qπ(s′,a′).
这两个方程说明:值函数不是孤立定义出来的,而是由“一步奖励 + 下一步值函数”递归闭合得到的。
4. 矩阵形式
当状态空间有限时,可以把上面的关系写得更紧凑。
定义:
- vπ∈R∣S∣,其第 s 个分量是 Vπ(s);
- rπ∈R∣S∣,其中
rπ(s)=a∑π(a∣s)r(s,a);
- Pπ∈R∣S∣×∣S∣,其中
Pπ(s,s′)=a∑π(a∣s)P(s′∣s,a).
于是贝尔曼期望方程可写为
vπ=rπ+γPπvπ.
移项得到
(I−γPπ)vπ=rπ.
如果矩阵 I−γPπ 可逆,那么
vπ=(I−γPπ)−1rπ.
这就是策略评估问题的线性代数表达。
5. 贝尔曼算子
定义策略 π 对应的贝尔曼算子
Tπv:=rπ+γPπv.
那么策略值函数正是它的不动点:
vπ=Tπvπ.
把“求值函数”理解成“求算子不动点”,会让整个理论结构变得非常清楚。
5.1 单调性
若 v≤w(逐点比较),则因为 Pπ 是非负矩阵,
Tπv=rπ+γPπv≤rπ+γPπw=Tπw.
所以 Tπ 是单调的。
5.2 压缩性
在无穷范数下,Tπ 是一个 γ-压缩映射:
∥Tπv−Tπw∥∞=∥γPπ(v−w)∥∞≤γ∥Pπ∥∞∥v−w∥∞.
由于 Pπ 每一行和为 1,所以
∥Pπ∥∞=1,
从而
∥Tπv−Tπw∥∞≤γ∥v−w∥∞.
因为 0<γ<1,Banach 不动点定理立刻告诉我们:
- Tπ 有唯一不动点;
- 这个不动点正是 vπ;
- 从任意初值 v0 出发迭代
vk+1=Tπvk
都会收敛到 vπ。
并且误差满足
∥vk−vπ∥∞≤γk∥v0−vπ∥∞.
这说明固定策略下的迭代评估不仅收敛,而且是几何速度收敛。
6. 对 (I−γPπ) 的进一步分析
这一部分是贝尔曼方程背后的线性算子视角,也是整个理论中很漂亮的一块。
6.1 可逆性:用 Gershgorin 圆盘看清楚
考虑矩阵
Aπ:=I−γPπ.
它的第 i 行满足:
- 对角元是 1−γPiiπ;
- 非对角元绝对值之和是
γj=i∑Pijπ=γ(1−Piiπ).
所以 Gershgorin 圆盘的中心与半径分别是
1−γPiiπ,γ(1−Piiπ).
每个圆盘在实轴上的最左端点都是
1−γPiiπ−γ(1−Piiπ)=1−γ>0.
因此所有 Gershgorin 圆盘都完全落在复平面的右半侧,特别地,它们都不包含 0。于是 0 不可能是 Aπ 的特征值,所以
I−γPπ
可逆。
这就从纯线性代数角度解释了为什么贝尔曼方程有唯一解。
6.2 逆矩阵是非负的,而且逐点大于等于 I
由于 ∥γPπ∥∞=γ<1,Neumann 级数成立:
(I−γPπ)−1=k=0∑∞(γPπ)k.
注意到每一项 (γPπ)k 都是非负矩阵,因此逆矩阵也是非负矩阵。并且因为级数第一项就是 I,所以有逐点不等式
(I−γPπ)−1≥I.
这里的“大于等于”是按矩阵逐项比较理解的。
这件事的含义是:累积未来收益只会把“一步奖励”的影响往上抬,不会把它反向抵消掉。
6.3 范数估计
仍由 Neumann 级数,
∥(I−γPπ)−1∥∞≤k=0∑∞∥γPπ∥∞k=k=0∑∞γk=1−γ1.
因此
∥vπ∥∞≤1−γ1∥rπ∥∞.
这个估计非常常见。它告诉我们:折扣因子越接近 1,长期回报的尺度就越大,值函数也越“敏感”。
7. 迭代收敛为何成立
从不动点角度看,策略评估就是重复作用算子 Tπ:
vk+1=Tπvk.
因为 Tπ 是压缩映射,所以无论起点如何,都会收敛到唯一不动点 vπ。这背后并不依赖“RL 的特殊技巧”,本质上只是一个标准的不动点理论结论。
从矩阵角度看,也可以写成
vk=t=0∑k−1(γPπ)trπ+(γPπ)kv0.
当 k→∞ 时,由于 ∥γPπ∥∞<1,第二项消失,前面的部分收敛到 Neumann 级数,因此最终极限正是
vπ=(I−γPπ)−1rπ.
所以“线性方程求解”“不动点迭代”“无穷级数展开”这三种视角,其实是在描述同一个对象。
8. 小结
这一篇的核心链条可以概括为:
- 固定策略 π 后,我们关心长期折扣回报 Gt。
- 为了评估策略,引入状态值函数 Vπ 与动作值函数 Qπ。
- 由于 return 具有递归分解,值函数满足贝尔曼期望方程。
- 在有限 MDP 中,贝尔曼方程可以写成
(I−γPπ)vπ=rπ.
- 对应的贝尔曼算子 Tπ 是压缩映射,因此不动点唯一且迭代收敛。
- 线性代数上,I−γPπ 可逆,且其逆矩阵非负并满足范数估计。
有了这些基础之后,就可以进一步讨论“在所有策略中如何找最优的那一个”,这就导向 贝尔曼最优方程、值迭代与策略迭代。