概率论随笔 2.5:一些细节 | Feixiang Tao
Probability Theory 2026-02-27 · 4 min read

概率论随笔 2.5:一些细节

期望的三种等价写法与概率论符号梳理

用生动严谨的数学语言,理清期望的定义、符号混淆、投影视角与矩的泛函解释。


1 期望的三种等价写法(别再被符号绕)

1.1 最通用定义(在样本空间 Ω\Omega 上)

E[Y]=ΩY(ω)dP(ω)\mathbb{E}[Y] = \int_{\Omega} Y(\omega) \, \mathrm{d}P(\omega)

这里 PP 是“世界的概率规则”,给事件赋概率。dP(ω)\mathrm{d}P(\omega) 只是“对测度 PP 积分”的记号;真正算题时要把它展开成求和/对密度积分。

1.2 换到值域(推前测度 / 分布)

定义 XX分布(推前测度)

μX:=PX1\mu_X := P \circ X^{-1}

E[g(X)]=Rg(x)dμX(x)\mathbb{E}[g(X)] = \int_{\mathbb{R}} g(x) \, \mathrm{d}\mu_X(x)

这一步是“拉回/换定义域”,中间必须补上 μX\mu_X 才不跳步。

1.3 有 pdf 时的可计算形式

dμX(x)=fX(x)dx\mathrm{d}\mu_X(x) = f_X(x) \, \mathrm{d}x(即存在概率密度函数),则

E[g(X)]=Rg(x)fX(x)dx\mathbb{E}[g(X)] = \int_{\mathbb{R}} g(x) \, f_X(x) \, \mathrm{d}x

这是工程中最常用的形式。


2 符号澄清:为什么 PXP_X 让人不舒服

  • PPΩ\Omega 上的概率测度;
  • μX\mu_X(或教材常写的 PXP_X)是 R\mathbb{R} 上由 XX 诱导的分布测度

教材用同一个字母 PP 容易让人以为“又造了一个概率”,这种不舒服是合理的。更干净的记法是

μX=Law(X)\mu_X = \mathrm{Law}(X)

明确区分“原空间的概率”与“随机变量诱导的分布”。


3 投影视角:期望与条件期望在 L2L^2 里是最小二乘

3.1 期望作为投影到常数子空间

E[X]1\mathbb{E}[X] \cdot 1XX 在“常数子空间”上的最小均方误差近似(投影到 11)。即

E[X]=argmincRE[(Xc)2]\mathbb{E}[X] = \arg\min_{c \in \mathbb{R}} \mathbb{E}[(X - c)^2]

3.2 条件期望作为投影到子空间

G\mathcal{G} 是一个子 σ\sigma-代数,L2(G)L^2(\mathcal{G}) 表示 G\mathcal{G}-可测的平方可积函数空间。则

E[XG]是 X 在子空间 L2(G) 上的投影。\mathbb{E}[X \mid \mathcal{G}] \quad \text{是 } X \text{ 在子空间 } L^2(\mathcal{G}) \text{ 上的投影。}

几何性质

  • 塔性质:投影的复合等于直接投影到更小的子空间。
  • 全期望公式E[E[XG]]=E[X]\mathbb{E}[\mathbb{E}[X \mid \mathcal{G}]] = \mathbb{E}[X](先投影到 L2(G)L^2(\mathcal{G}),再投影到常数)。
  • 全方差分解:勾股定理 X2=E[XG]2+XE[XG]2\|X\|^2 = \|\mathbb{E}[X \mid \mathcal{G}]\|^2 + \|X - \mathbb{E}[X \mid \mathcal{G}]\|^2

你用这个方法推了几何分布的均值方差(选 YY = 第一次是否成功,然后用全期望/全方差递推)正是投影思想的典型应用。


4 “沿 XX 的分布”是什么意思

不是“pdf 沿着什么走”,而是:XX 的分布当权重去平均

gdμX\int g \, \mathrm{d}\mu_X

有 pdf 时才写成 g(x)fX(x)dx\int g(x) f_X(x) \, \mathrm{d}x

换句话说,“沿 XX 的分布”就是gg 对测度 μX\mu_X 积分μX\mu_X 已经包含了 XX 取值的权重信息。


5 矩、基、泛函:你抓到的正确直觉

nn 阶矩

mn=xndμX(x)m_n = \int x^n \, \mathrm{d}\mu_X(x)

是“分布(测度)对测试函数 xnx^n 的线性测量”。

  • 写成 xn,fXL2(dx)\langle x^n, f_X \rangle_{L^2(\mathrm{d}x)} 很“工程直观”,因为把分布显式化成 pdf;
  • 写成 xn,1L2(μX)\langle x^n, 1 \rangle_{L^2(\mu_X)} 则把分布藏进了内积里,所以不显眼但更统一。

你也意识到:把 pdf 当 L2(dx)L^2(\mathrm{d}x) 向量做内积很顺手,但它依赖“存在 pdf”;而 dμ\mathrm{d}\mu 写法是为了覆盖离散/连续/混合分布。


6 换元公式的严格版本:为什么三种写法等价

上面三种写法之所以等价,背后的严格保证是测度论中的换元公式(也称抽象替换定理)。

定理(换元公式/Transfer Theorem).X:(Ω,F,P)(R,B)X: (\Omega, \mathcal{F}, P) \to (\mathbb{R}, \mathcal{B}) 是可测函数,g:RRg: \mathbb{R} \to \mathbb{R} 是博雷尔函数。则

Ωg(X(ω))dP(ω)=Rg(x)dμX(x)\int_\Omega g(X(\omega))\, \mathrm{d}P(\omega) = \int_{\mathbb{R}} g(x)\, \mathrm{d}\mu_X(x)

两边要么同时存在(有限),要么同时发散。

这个定理的意义在于:它允许我们在”原因空间” Ω\Omega 和”结果空间” R\mathbb{R} 之间自由切换积分定义域,同时保持数值一致。从写法 1.1 到 1.2 的过渡就是这个定理的直接应用。

注意:从写法 1.2 到 1.3 的过渡则依赖于 Radon-Nikodym 定理——当推前测度 μX\mu_X 关于 Lebesgue 测度绝对连续时,其密度(Radon-Nikodym 导数)就是 pdf fXf_X

这两步构成了概率论中最常用的”降维链”:

Ωg(X)dP抽象但普适换元RgdμX仍抽象但已降维R-NRgfXdx可算的\underbrace{\int_\Omega g(X) \, \mathrm{d}P}_{\text{抽象但普适}} \xrightarrow{\text{换元}} \underbrace{\int_{\mathbb{R}} g \, \mathrm{d}\mu_X}_{\text{仍抽象但已降维}} \xrightarrow{\text{R-N}} \underbrace{\int_{\mathbb{R}} g \cdot f_X \, \mathrm{d}x}_{\text{可算的}}

7 速查表(符号对照 + 三个万能公式 + 两条投影法则)

符号对照

记号含义备注
PPΩ\Omega 上的概率测度“世界的规则”
μX=PX1\mu_X = P \circ X^{-1}XX 的分布(推前测度)也记作 Law(X)\mathrm{Law}(X)
fX(x)f_X(x)XX 的概率密度函数(若存在)dμX(x)=fX(x)dx\mathrm{d}\mu_X(x) = f_X(x)\mathrm{d}x
E[Y]\mathbb{E}[Y]YY 的期望定义在 Ω\Omega
E[g(X)]\mathbb{E}[g(X)]g(X)g(X) 的期望可转到 R\mathbb{R} 上算

三个万能公式

  1. 样本空间积分E[Y]=ΩY(ω)dP(ω)\mathbb{E}[Y] = \int_\Omega Y(\omega) \mathrm{d}P(\omega)
  2. 分布积分E[g(X)]=Rg(x)dμX(x)\mathbb{E}[g(X)] = \int_{\mathbb{R}} g(x) \mathrm{d}\mu_X(x)
  3. 密度积分(若存在 pdf):E[g(X)]=Rg(x)fX(x)dx\mathbb{E}[g(X)] = \int_{\mathbb{R}} g(x) f_X(x) \mathrm{d}x

两条投影法则

  1. 期望投影E[X]\mathbb{E}[X]XX 在常数子空间上的 L2L^2 投影。
  2. 条件期望投影E[XG]\mathbb{E}[X \mid \mathcal{G}]XXL2(G)L^2(\mathcal{G}) 上的 L2L^2 投影。

8 后记

这份笔记旨在帮你把“符号的森林”变成“地图”。当你再次看到 dP(ω)\mathrm{d}P(\omega)PXP_X 时,可以快速定位到对应的积分形式与几何意义。继续用这种“既严谨又直观”的方式推进,概率论会越来越亲切。

笔记整理于 2026-02-27,基于你对期望、分布、投影的讨论。

END

Series: Probability Theory

  1. 1. 概率论随笔 1:测度、sigma-代数与随机变量
  2. 2. 概率论随笔 2:期望、条件与独立性
  3. 3. 概率论随笔 2.5:一些细节

Comments