RL 数学 Note 1:值函数与贝尔曼期望方程 | Feixiang Tao
RL Mathematics 2026-03-19 · 5 min read

RL 数学 Note 1:值函数与贝尔曼期望方程

本文固定在有限状态、有限动作、无限时域、折扣因子 γ(0,1)\gamma\in(0,1) 的 MDP 框架下讨论。这样既足够覆盖强化学习中的核心思想,也能把贝尔曼方程写成清晰的矩阵与算子形式。

后续关于最优控制、值迭代与策略迭代的内容见 Note 2

1. 强化学习的基本对象

一个折扣型马尔可夫决策过程可以写成

M=(S,A,P,r,γ).\mathcal{M}=(\mathcal{S},\mathcal{A},P,r,\gamma).

其中:

  • S\mathcal{S} 是状态空间。
  • A\mathcal{A} 是动作空间。
  • P(ss,a)P(s'\mid s,a) 是转移概率。
  • r(s,a)r(s,a) 是一步期望奖励。
  • γ(0,1)\gamma\in(0,1) 是折扣因子,控制“眼前收益”和“长期收益”的权衡。

强化学习的基本过程是:智能体在状态 sts_t 采取动作 ata_t,环境给出奖励 rtr_t 并转移到下一个状态 st+1s_{t+1}

一条策略 π(as)\pi(a\mid s) 描述了在状态 ss 下选择动作 aa 的概率。给定策略以后,系统的随机性只来自两部分:策略本身的采样,以及环境转移的采样。

这里最关键的一点是:一旦策略固定,控制问题就退化成了一个随机过程上的评估问题。 这就是值函数与贝尔曼方程出现的原因。

2. Return 与值函数

2.1 Return

从时刻 tt 开始的折扣回报定义为

Gt=k=0γkrt+k.G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}.

它代表从“现在”开始一路走下去能拿到的总收益。由于 γ<1\gamma<1,远期奖励会被逐步折扣,因此在有界奖励下该级数是收敛的。

2.2 状态值函数与动作值函数

给定策略 π\pi,定义:

Vπ(s)=Eπ[Gtst=s],V^{\pi}(s)=\mathbb{E}_{\pi}[G_t\mid s_t=s], Qπ(s,a)=Eπ[Gtst=s,at=a].Q^{\pi}(s,a)=\mathbb{E}_{\pi}[G_t\mid s_t=s,a_t=a].

其中:

  • Vπ(s)V^{\pi}(s) 衡量“在状态 ss,以后都按照策略 π\pi 行动”的长期质量。
  • Qπ(s,a)Q^{\pi}(s,a) 衡量“先在 ss 执行动作 aa,之后再遵循 π\pi”的长期质量。

于是策略评估的目标就是:在给定 π\pi 的前提下,求出 VπV^{\pi}QπQ^{\pi}

3. 贝尔曼期望方程

值函数之所以重要,是因为它满足一种递归关系。把 return 拆开一项:

Gt=rt+γGt+1.G_t = r_t + \gamma G_{t+1}.

对条件期望取平均,就得到

Vπ(s)=Eπ[rt+γVπ(st+1)st=s].V^{\pi}(s)=\mathbb{E}_{\pi}[r_t+\gamma V^{\pi}(s_{t+1})\mid s_t=s].

把条件期望写展开,可得

Vπ(s)=aπ(as)[r(s,a)+γsP(ss,a)Vπ(s)].V^{\pi}(s)=\sum_a \pi(a\mid s)\left[r(s,a)+\gamma\sum_{s'}P(s'\mid s,a)V^{\pi}(s')\right].

这就是贝尔曼期望方程

同理,动作值函数满足

Qπ(s,a)=r(s,a)+γsP(ss,a)aπ(as)Qπ(s,a).Q^{\pi}(s,a)=r(s,a)+\gamma\sum_{s'}P(s'\mid s,a)\sum_{a'}\pi(a'\mid s')Q^{\pi}(s',a').

这两个方程说明:值函数不是孤立定义出来的,而是由“一步奖励 + 下一步值函数”递归闭合得到的。

4. 矩阵形式

当状态空间有限时,可以把上面的关系写得更紧凑。

定义:

  • vπRSv^{\pi}\in\mathbb{R}^{|\mathcal{S}|},其第 ss 个分量是 Vπ(s)V^{\pi}(s)
  • rπRSr^{\pi}\in\mathbb{R}^{|\mathcal{S}|},其中 rπ(s)=aπ(as)r(s,a);r^{\pi}(s)=\sum_a \pi(a\mid s)r(s,a);
  • PπRS×SP^{\pi}\in\mathbb{R}^{|\mathcal{S}|\times|\mathcal{S}|},其中 Pπ(s,s)=aπ(as)P(ss,a).P^{\pi}(s,s')=\sum_a \pi(a\mid s)P(s'\mid s,a).

于是贝尔曼期望方程可写为

vπ=rπ+γPπvπ.v^{\pi}=r^{\pi}+\gamma P^{\pi}v^{\pi}.

移项得到

(IγPπ)vπ=rπ.(I-\gamma P^{\pi})v^{\pi}=r^{\pi}.

如果矩阵 IγPπI-\gamma P^{\pi} 可逆,那么

vπ=(IγPπ)1rπ.v^{\pi}=(I-\gamma P^{\pi})^{-1}r^{\pi}.

这就是策略评估问题的线性代数表达。

5. 贝尔曼算子

定义策略 π\pi 对应的贝尔曼算子

Tπv:=rπ+γPπv.T^{\pi}v := r^{\pi}+\gamma P^{\pi}v.

那么策略值函数正是它的不动点:

vπ=Tπvπ.v^{\pi}=T^{\pi}v^{\pi}.

把“求值函数”理解成“求算子不动点”,会让整个理论结构变得非常清楚。

5.1 单调性

vwv\le w(逐点比较),则因为 PπP^{\pi} 是非负矩阵,

Tπv=rπ+γPπvrπ+γPπw=Tπw.T^{\pi}v = r^{\pi}+\gamma P^{\pi}v \le r^{\pi}+\gamma P^{\pi}w = T^{\pi}w.

所以 TπT^{\pi} 是单调的。

5.2 压缩性

在无穷范数下,TπT^{\pi} 是一个 γ\gamma-压缩映射:

TπvTπw=γPπ(vw)γPπvw.\|T^{\pi}v-T^{\pi}w\|_{\infty} = \|\gamma P^{\pi}(v-w)\|_{\infty} \le \gamma \|P^{\pi}\|_{\infty}\|v-w\|_{\infty}.

由于 PπP^{\pi} 每一行和为 11,所以

Pπ=1,\|P^{\pi}\|_{\infty}=1,

从而

TπvTπwγvw.\|T^{\pi}v-T^{\pi}w\|_{\infty}\le \gamma\|v-w\|_{\infty}.

因为 0<γ<10<\gamma<1,Banach 不动点定理立刻告诉我们:

  • TπT^{\pi} 有唯一不动点;
  • 这个不动点正是 vπv^{\pi}
  • 从任意初值 v0v_0 出发迭代 vk+1=Tπvkv_{k+1}=T^{\pi}v_k 都会收敛到 vπv^{\pi}

并且误差满足

vkvπγkv0vπ.\|v_k-v^{\pi}\|_{\infty}\le \gamma^k\|v_0-v^{\pi}\|_{\infty}.

这说明固定策略下的迭代评估不仅收敛,而且是几何速度收敛。

6. 对 (IγPπ)(I-\gamma P^{\pi}) 的进一步分析

这一部分是贝尔曼方程背后的线性算子视角,也是整个理论中很漂亮的一块。

6.1 可逆性:用 Gershgorin 圆盘看清楚

考虑矩阵

Aπ:=IγPπ.A_{\pi}:=I-\gamma P^{\pi}.

它的第 ii 行满足:

  • 对角元是 1γPiiπ1-\gamma P^{\pi}_{ii}
  • 非对角元绝对值之和是 γjiPijπ=γ(1Piiπ).\gamma\sum_{j\ne i}P^{\pi}_{ij}=\gamma(1-P^{\pi}_{ii}).

所以 Gershgorin 圆盘的中心与半径分别是

1γPiiπ,γ(1Piiπ).1-\gamma P^{\pi}_{ii},\qquad \gamma(1-P^{\pi}_{ii}).

每个圆盘在实轴上的最左端点都是

1γPiiπγ(1Piiπ)=1γ>0.1-\gamma P^{\pi}_{ii}-\gamma(1-P^{\pi}_{ii})=1-\gamma>0.

因此所有 Gershgorin 圆盘都完全落在复平面的右半侧,特别地,它们都不包含 00。于是 00 不可能是 AπA_{\pi} 的特征值,所以

IγPπI-\gamma P^{\pi}

可逆。

这就从纯线性代数角度解释了为什么贝尔曼方程有唯一解。

6.2 逆矩阵是非负的,而且逐点大于等于 II

由于 γPπ=γ<1\|\gamma P^{\pi}\|_{\infty}=\gamma<1,Neumann 级数成立:

(IγPπ)1=k=0(γPπ)k.(I-\gamma P^{\pi})^{-1} = \sum_{k=0}^{\infty}(\gamma P^{\pi})^k.

注意到每一项 (γPπ)k(\gamma P^{\pi})^k 都是非负矩阵,因此逆矩阵也是非负矩阵。并且因为级数第一项就是 II,所以有逐点不等式

(IγPπ)1I.(I-\gamma P^{\pi})^{-1} \ge I.

这里的“大于等于”是按矩阵逐项比较理解的。

这件事的含义是:累积未来收益只会把“一步奖励”的影响往上抬,不会把它反向抵消掉。

6.3 范数估计

仍由 Neumann 级数,

(IγPπ)1k=0γPπk=k=0γk=11γ.\|(I-\gamma P^{\pi})^{-1}\|_{\infty} \le \sum_{k=0}^{\infty}\|\gamma P^{\pi}\|_{\infty}^k = \sum_{k=0}^{\infty}\gamma^k = \frac{1}{1-\gamma}.

因此

vπ11γrπ.\|v^{\pi}\|_{\infty} \le \frac{1}{1-\gamma}\|r^{\pi}\|_{\infty}.

这个估计非常常见。它告诉我们:折扣因子越接近 11,长期回报的尺度就越大,值函数也越“敏感”。

7. 迭代收敛为何成立

从不动点角度看,策略评估就是重复作用算子 TπT^{\pi}

vk+1=Tπvk.v_{k+1}=T^{\pi}v_k.

因为 TπT^{\pi} 是压缩映射,所以无论起点如何,都会收敛到唯一不动点 vπv^{\pi}。这背后并不依赖“RL 的特殊技巧”,本质上只是一个标准的不动点理论结论。

从矩阵角度看,也可以写成

vk=t=0k1(γPπ)trπ+(γPπ)kv0.v_k = \sum_{t=0}^{k-1}(\gamma P^{\pi})^t r^{\pi} + (\gamma P^{\pi})^k v_0.

kk\to\infty 时,由于 γPπ<1\|\gamma P^{\pi}\|_{\infty}<1,第二项消失,前面的部分收敛到 Neumann 级数,因此最终极限正是

vπ=(IγPπ)1rπ.v^{\pi}=(I-\gamma P^{\pi})^{-1}r^{\pi}.

所以“线性方程求解”“不动点迭代”“无穷级数展开”这三种视角,其实是在描述同一个对象。

8. 小结

这一篇的核心链条可以概括为:

  1. 固定策略 π\pi 后,我们关心长期折扣回报 GtG_t
  2. 为了评估策略,引入状态值函数 VπV^{\pi} 与动作值函数 QπQ^{\pi}
  3. 由于 return 具有递归分解,值函数满足贝尔曼期望方程。
  4. 在有限 MDP 中,贝尔曼方程可以写成 (IγPπ)vπ=rπ.(I-\gamma P^{\pi})v^{\pi}=r^{\pi}.
  5. 对应的贝尔曼算子 TπT^{\pi} 是压缩映射,因此不动点唯一且迭代收敛。
  6. 线性代数上,IγPπI-\gamma P^{\pi} 可逆,且其逆矩阵非负并满足范数估计。

有了这些基础之后,就可以进一步讨论“在所有策略中如何找最优的那一个”,这就导向 贝尔曼最优方程、值迭代与策略迭代

END

Comments