RL 数学 Note 1：值函数与贝尔曼期望方程

本文固定在有限状态、有限动作、无限时域、折扣因子 $\gamma\in(0,1)$ 的 MDP 框架下讨论。这样既足够覆盖强化学习中的核心思想，也能把贝尔曼方程写成清晰的矩阵与算子形式。

后续关于最优控制、值迭代与策略迭代的内容见 Note 2。

1. 强化学习的基本对象

一个折扣型马尔可夫决策过程可以写成

\mathcal{M}=(\mathcal{S},\mathcal{A},P,r,\gamma).

其中：

$\mathcal{S}$ 是状态空间。
$\mathcal{A}$ 是动作空间。
$P(s'\mid s,a)$ 是转移概率。
$r(s,a)$ 是一步期望奖励。
$\gamma\in(0,1)$ 是折扣因子，控制“眼前收益”和“长期收益”的权衡。

强化学习的基本过程是：智能体在状态 $s_t$ 采取动作 $a_t$ ，环境给出奖励 $r_t$ 并转移到下一个状态 $s_{t+1}$ 。

一条策略 $\pi(a\mid s)$ 描述了在状态 $s$ 下选择动作 $a$ 的概率。给定策略以后，系统的随机性只来自两部分：策略本身的采样，以及环境转移的采样。

这里最关键的一点是：一旦策略固定，控制问题就退化成了一个随机过程上的评估问题。 这就是值函数与贝尔曼方程出现的原因。

2. Return 与值函数

2.1 Return

从时刻 $t$ 开始的折扣回报定义为

G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}.

它代表从“现在”开始一路走下去能拿到的总收益。由于 $\gamma<1$ ，远期奖励会被逐步折扣，因此在有界奖励下该级数是收敛的。

2.2 状态值函数与动作值函数

给定策略 $\pi$ ，定义：

V^{\pi}(s)=\mathbb{E}_{\pi}[G_t\mid s_t=s],

Q^{\pi}(s,a)=\mathbb{E}_{\pi}[G_t\mid s_t=s,a_t=a].

其中：

$V^{\pi}(s)$ 衡量“在状态 $s$ ，以后都按照策略 $\pi$ 行动”的长期质量。
$Q^{\pi}(s,a)$ 衡量“先在 $s$ 执行动作 $a$ ，之后再遵循 $\pi$ ”的长期质量。

于是策略评估的目标就是：在给定 $\pi$ 的前提下，求出 $V^{\pi}$ 或 $Q^{\pi}$ 。

3. 贝尔曼期望方程

值函数之所以重要，是因为它满足一种递归关系。把 return 拆开一项：

G_t = r_t + \gamma G_{t+1}.

对条件期望取平均，就得到

V^{\pi}(s)=\mathbb{E}_{\pi}[r_t+\gamma V^{\pi}(s_{t+1})\mid s_t=s].

把条件期望写展开，可得

V^{\pi}(s)=\sum_a \pi(a\mid s)\left[r(s,a)+\gamma\sum_{s'}P(s'\mid s,a)V^{\pi}(s')\right].

这就是贝尔曼期望方程。

同理，动作值函数满足

Q^{\pi}(s,a)=r(s,a)+\gamma\sum_{s'}P(s'\mid s,a)\sum_{a'}\pi(a'\mid s')Q^{\pi}(s',a').

这两个方程说明：值函数不是孤立定义出来的，而是由“一步奖励 + 下一步值函数”递归闭合得到的。

4. 矩阵形式

当状态空间有限时，可以把上面的关系写得更紧凑。

定义：

$v^{\pi}\in\mathbb{R}^{|\mathcal{S}|}$ ，其第 $s$ 个分量是 $V^{\pi}(s)$ ；
$r^{\pi}\in\mathbb{R}^{|\mathcal{S}|}$ ，其中 $r^{\pi}(s)=\sum_a \pi(a\mid s)r(s,a);$
$P^{\pi}\in\mathbb{R}^{|\mathcal{S}|\times|\mathcal{S}|}$ ，其中 $P^{\pi}(s,s')=\sum_a \pi(a\mid s)P(s'\mid s,a).$

于是贝尔曼期望方程可写为

v^{\pi}=r^{\pi}+\gamma P^{\pi}v^{\pi}.

移项得到

(I-\gamma P^{\pi})v^{\pi}=r^{\pi}.

如果矩阵 $I-\gamma P^{\pi}$ 可逆，那么

v^{\pi}=(I-\gamma P^{\pi})^{-1}r^{\pi}.

这就是策略评估问题的线性代数表达。

5. 贝尔曼算子

定义策略 $\pi$ 对应的贝尔曼算子

T^{\pi}v := r^{\pi}+\gamma P^{\pi}v.

那么策略值函数正是它的不动点：

v^{\pi}=T^{\pi}v^{\pi}.

把“求值函数”理解成“求算子不动点”，会让整个理论结构变得非常清楚。

5.1 单调性

若 $v\le w$ （逐点比较），则因为 $P^{\pi}$ 是非负矩阵，

T^{\pi}v = r^{\pi}+\gamma P^{\pi}v \le r^{\pi}+\gamma P^{\pi}w = T^{\pi}w.

所以 $T^{\pi}$ 是单调的。

5.2 压缩性

在无穷范数下， $T^{\pi}$ 是一个 $\gamma$ -压缩映射：

\|T^{\pi}v-T^{\pi}w\|_{\infty} = \|\gamma P^{\pi}(v-w)\|_{\infty} \le \gamma \|P^{\pi}\|_{\infty}\|v-w\|_{\infty}.

由于 $P^{\pi}$ 每一行和为 $1$ ，所以

\|P^{\pi}\|_{\infty}=1,

从而

\|T^{\pi}v-T^{\pi}w\|_{\infty}\le \gamma\|v-w\|_{\infty}.

因为 $0<\gamma<1$ ，Banach 不动点定理立刻告诉我们：

$T^{\pi}$ 有唯一不动点；
这个不动点正是 $v^{\pi}$ ；
从任意初值 $v_0$ 出发迭代 $v_{k+1}=T^{\pi}v_k$ 都会收敛到 $v^{\pi}$ 。

并且误差满足

\|v_k-v^{\pi}\|_{\infty}\le \gamma^k\|v_0-v^{\pi}\|_{\infty}.

这说明固定策略下的迭代评估不仅收敛，而且是几何速度收敛。

6. 对 $(I-\gamma P^{\pi})$ 的进一步分析

这一部分是贝尔曼方程背后的线性算子视角，也是整个理论中很漂亮的一块。

6.1 可逆性：用 Gershgorin 圆盘看清楚

考虑矩阵

A_{\pi}:=I-\gamma P^{\pi}.

它的第 $i$ 行满足：

对角元是 $1-\gamma P^{\pi}_{ii}$ ；
非对角元绝对值之和是 $\gamma\sum_{j\ne i}P^{\pi}_{ij}=\gamma(1-P^{\pi}_{ii}).$

所以 Gershgorin 圆盘的中心与半径分别是

1-\gamma P^{\pi}_{ii},\qquad \gamma(1-P^{\pi}_{ii}).

每个圆盘在实轴上的最左端点都是

1-\gamma P^{\pi}_{ii}-\gamma(1-P^{\pi}_{ii})=1-\gamma>0.

因此所有 Gershgorin 圆盘都完全落在复平面的右半侧，特别地，它们都不包含 $0$ 。于是 $0$ 不可能是 $A_{\pi}$ 的特征值，所以

I-\gamma P^{\pi}

可逆。

这就从纯线性代数角度解释了为什么贝尔曼方程有唯一解。

6.2 逆矩阵是非负的，而且逐点大于等于 $I$

由于 $\|\gamma P^{\pi}\|_{\infty}=\gamma<1$ ，Neumann 级数成立：

(I-\gamma P^{\pi})^{-1} = \sum_{k=0}^{\infty}(\gamma P^{\pi})^k.

注意到每一项 $(\gamma P^{\pi})^k$ 都是非负矩阵，因此逆矩阵也是非负矩阵。并且因为级数第一项就是 $I$ ，所以有逐点不等式

(I-\gamma P^{\pi})^{-1} \ge I.

这里的“大于等于”是按矩阵逐项比较理解的。

这件事的含义是：累积未来收益只会把“一步奖励”的影响往上抬，不会把它反向抵消掉。

6.3 范数估计

仍由 Neumann 级数，

\|(I-\gamma P^{\pi})^{-1}\|_{\infty} \le \sum_{k=0}^{\infty}\|\gamma P^{\pi}\|_{\infty}^k = \sum_{k=0}^{\infty}\gamma^k = \frac{1}{1-\gamma}.

因此

\|v^{\pi}\|_{\infty} \le \frac{1}{1-\gamma}\|r^{\pi}\|_{\infty}.

这个估计非常常见。它告诉我们：折扣因子越接近 $1$ ，长期回报的尺度就越大，值函数也越“敏感”。

7. 迭代收敛为何成立

从不动点角度看，策略评估就是重复作用算子 $T^{\pi}$ ：

v_{k+1}=T^{\pi}v_k.

因为 $T^{\pi}$ 是压缩映射，所以无论起点如何，都会收敛到唯一不动点 $v^{\pi}$ 。这背后并不依赖“RL 的特殊技巧”，本质上只是一个标准的不动点理论结论。

从矩阵角度看，也可以写成

v_k = \sum_{t=0}^{k-1}(\gamma P^{\pi})^t r^{\pi} + (\gamma P^{\pi})^k v_0.

当 $k\to\infty$ 时，由于 $\|\gamma P^{\pi}\|_{\infty}<1$ ，第二项消失，前面的部分收敛到 Neumann 级数，因此最终极限正是

v^{\pi}=(I-\gamma P^{\pi})^{-1}r^{\pi}.

所以“线性方程求解”“不动点迭代”“无穷级数展开”这三种视角，其实是在描述同一个对象。

8. 小结

这一篇的核心链条可以概括为：

固定策略 $\pi$ 后，我们关心长期折扣回报 $G_t$ 。
为了评估策略，引入状态值函数 $V^{\pi}$ 与动作值函数 $Q^{\pi}$ 。
由于 return 具有递归分解，值函数满足贝尔曼期望方程。
在有限 MDP 中，贝尔曼方程可以写成 $(I-\gamma P^{\pi})v^{\pi}=r^{\pi}.$
对应的贝尔曼算子 $T^{\pi}$ 是压缩映射，因此不动点唯一且迭代收敛。
线性代数上， $I-\gamma P^{\pi}$ 可逆，且其逆矩阵非负并满足范数估计。

有了这些基础之后，就可以进一步讨论“在所有策略中如何找最优的那一个”，这就导向贝尔曼最优方程、值迭代与策略迭代。

RL 数学 Note 1：值函数与贝尔曼期望方程

1. 强化学习的基本对象

2. Return 与值函数

2.1 Return

2.2 状态值函数与动作值函数

3. 贝尔曼期望方程

4. 矩阵形式

5. 贝尔曼算子

5.1 单调性

5.2 压缩性

6. 对 $(I-\gamma P^{\pi})$ 的进一步分析

6.1 可逆性：用 Gershgorin 圆盘看清楚

6.2 逆矩阵是非负的，而且逐点大于等于 $I$

6.3 范数估计

7. 迭代收敛为何成立

8. 小结

Series: RL Mathematics

Comments

Contents

1. 强化学习的基本对象

2. Return 与值函数

2.1 Return

2.2 状态值函数与动作值函数

3. 贝尔曼期望方程

4. 矩阵形式

5. 贝尔曼算子

5.1 单调性

5.2 压缩性

6. 对 (I−γPπ)(I-\gamma P^{\pi})(I−γPπ) 的进一步分析

6.1 可逆性：用 Gershgorin 圆盘看清楚

6.2 逆矩阵是非负的，而且逐点大于等于 III

6.3 范数估计

7. 迭代收敛为何成立

8. 小结

Series: RL Mathematics

Comments

Contents

6. 对 $(I-\gamma P^{\pi})$ 的进一步分析

6.2 逆矩阵是非负的，而且逐点大于等于 $I$