概率论随笔 1:测度、sigma-代数与随机变量 | Feixiang Tao
Probability Theory 2026-02-08 · 11 min read

概率论随笔 1:测度、sigma-代数与随机变量

Chapter 0 一切的伊始

遥远的过去,宇宙还是一切茫茫,一切的中心只有一个黝黑的实心球… 然后,博雷尔说:

“Axiom of Choice”

然后,宇宙便有了两个球。


Chapter 1: 为什么要引入测度论?

1. 朴素的愿望

在我们最初的设想中,概率论应该是非常直观的。 假设我们有一个样本空间 Ω\Omega,我们希望定义一个概率函数 PP,能够衡量 Ω\Omega任意一个子集的概率。

Def: 对于 Ω\Omega 的幂集 P(Ω)\mathcal{P}(\Omega),我们希望存在一个映射 P:P(Ω)[0,1]P: \mathcal{P}(\Omega) \to [0, 1],满足以下公理:

  1. 非负性:对于任意 AΩA \subseteq \Omega,有 P(A)0P(A) \ge 0
  2. 归一性P(Ω)=1P(\Omega) = 1
  3. 可数可加性:对于互不相交的集合序列 A1,A2,A_1, A_2, \dots,有:
P(n=1An)=n=1P(An)P\left(\bigcup_{n=1}^{\infty} A_n\right) = \sum_{n=1}^{\infty} P(A_n)

2. 分球悖论

然而,现代数学的基础公理体系中包含 选择公理。 数学家发现,如果承认 AC,并试图在 R3\mathbb{R}^3 上对所有子集定义满足上述公理的测度,会导致严重的逻辑矛盾。

  • 现象(Banach-Tarski 悖论, 1924):我们可以将一个三维实心球体切割成有限块(实际上只需 5 块),然后通过旋转和平移(不改变形状和体积),重新拼凑成 两个 和原来一模一样的实心球。
  • 矛盾:如果测度(体积/概率)对所有集合都有定义,那么我们就会得出 1=1+1    1=21 = 1 + 1 \implies 1 = 2 的荒谬结论。

结论:在承认选择公理的前提下,不存在一个能定义在幂集 P(Ω)\mathcal{P}(\Omega) 上、且满足可数可加性的非平凡测度。 这意味着:样本空间中存在一些“极度破碎、不可测量”的怪兽集合——不可测集(Vitali 集是最经典的一维例子)。

3. 解决方案:sigma-代数

为了挽救概率论,我们必须退一步:不再试图测量所有的子集,而是剔除那些“病态”的集合,只在一个安全区内定义概率。

这个构建“安全区”的数学过程大致如下(Carathéodory 扩张定理的思路):

  1. 外测度: 先不管三七二十一,用一堆开区间(或开矩形)去覆盖任何一个集合 EE,取这些覆盖体积下确界。这能给所有集合算出一个“外壳大小”,但它不满足可数可加性(1+121+1 \neq 2)。

  2. 卡拉西奥多里条件: 我们需要挑选出那些“切分得很干净”的集合。定义一个集合 EE可测的,当且仅当它对任意集合 AA 都能像刀一样整齐切开:

μ(A)=μ(AE)+μ(AEc)\mu^*(A) = \mu^*(A \cap E) + \mu^*(A \cap E^c)

(直觉:如果 EE 边缘极其破碎,这一等式将不成立)

  1. 验证封闭性: 数学家惊喜地发现,满足上述条件的所有集合构成了一个完美的代数结构:它们对补集运算封闭,对可数并运算封闭。

  2. 提炼公理: 我们不再每次都重复上述复杂的构造过程,而是直接将这个“完美结构”的性质提炼出来,定义为 σ\sigma-代数

4. 概率空间

基于上述逻辑,现代概率论不再建立在 P(Ω)\mathcal{P}(\Omega) 上,而是建立在一个三元组 (Ω,F,P)(\Omega, \mathcal{F}, P) 上。

Def 0.1:σ\sigma-代数 F\mathcal{F}Ω\Omega 的子集族,满足:

  1. 全集在内ΩF\Omega \in \mathcal{F}
  2. 补集封闭:若 AFA \in \mathcal{F},则 AcFA^c \in \mathcal{F}
  3. 可数并封闭:若 A1,A2,FA_1, A_2, \dots \in \mathcal{F},则 n=1AnF\bigcup_{n=1}^{\infty} A_n \in \mathcal{F}

只有 F\mathcal{F} 中的元素才被称为 “事件”,才有资格被计算概率。

定义 0.2:概率测度 映射 P:F[0,1]P: \mathcal{F} \to [0, 1] 满足:

  1. P(Ω)=1P(\Omega) = 1
  2. 可数可加性:对于互不相交的 AnFA_n \in \mathcal{F},有 P(An)=P(An)P(\cup A_n) = \sum P(A_n)

Chapter 2: 随机变量

1. “既不随机,也不是变量”

我们在高中或初等概率论中熟知的随机变量,从测度论的角度看,是一个具有误导性的历史遗留术语。

  • 它不是变量:在任何一次具体的试验中,它一旦被确定,就只是一个普通的数。
  • 它的随机性不来自自身:它的随机性完全继承自其定义域——样本空间 Ω\Omega 中的不确定性。

Def 1.1:随机变量 一个随机变量 XX 是一个从样本空间 Ω\Omega 到实数轴 R\mathbb{R}函数

X:ΩRX: \Omega \to \mathbb{R}
  • 例子:在抛硬币的实验中,Ω={正面,反面}\Omega = \{ \text{正面}, \text{反面} \}。 我们可以定义一个随机变量 XX
X(ω)={1,如果 ω=正面0,如果 ω=反面X(\omega) = \begin{cases} 1, & \text{如果 } \omega = \text{正面} \\ 0, & \text{如果 } \omega = \text{反面} \end{cases}

2. “过滤器” X1X^{-1}

我们如何计算关于随机变量的概率,比如 P(X=1)P(X=1) 显然,PP 函数的输入必须是一个集合(事件)。“X=1X=1”本身不是 Ω\Omega 的子集。 我们真正想计算的是:“所有那些导致 XX 取值为 1 的样本点 ω\omega 构成的集合的概率。”

这就引出了随机变量的核心工作机制:拉回

定义 1.2:原像 X1X^{-1} 对于实数轴 R\mathbb{R} 上的任意一个子集 BRB \subseteq \mathbb{R},其原像 X1(B)X^{-1}(B)Ω\Omega 中的一个子集,定义为:

X1(B):={ωΩ:X(ω)B}X^{-1}(B) := \{ \omega \in \Omega : X(\omega) \in B \}

你可以把 X1X^{-1} 理解为一个过滤器

你在实数轴(结果空间)指定一个目标区域 BBX1X^{-1} 就会在样本空间 Ω\Omega(原因空间)中过滤出所有能产生该结果的样本点。

3. 可测性:确保“过滤器”的合法性

既然我们计算概率的公式是 P(XB)=P(X1(B))P(X \in B) = P(X^{-1}(B)),这就带来了一个至关重要的问题:

我们如何保证,对于任何我们感兴趣的目标区域 BBX1(B)X^{-1}(B) 这个原像集合都是一个合法的事件(即 X1(B)FX^{-1}(B) \in \mathcal{F})?

这就是可测性的由来。

  1. 我们最感兴趣的目标区域是开区间 (a,b)(a, b),因为它们是微积分和分析学的基础。
  2. 为了让我们的概率体系具有逻辑完备性,我们必须允许对这些基础集合进行可数次的并、交、补运算。
  3. 由所有开区间通过可数次运算生成的集合族,就是博雷尔 σ\sigma-代数 B(R)\mathcal{B}(\mathbb{R})

结论:为了让随机变量 XX 与我们的概率空间 (Ω,F,P)(\Omega, \mathcal{F}, P) 兼容,我们必须要求:对于任何博雷尔集 BB(R)B \in \mathcal{B}(\mathbb{R}),它的原像 X1(B)X^{-1}(B) 都必须属于我们定义好的 σ\sigma-代数 F\mathcal{F}。 满足此条件的函数 XX 就被称为 F\mathcal{F}-可测的


Chapter 3: 从复杂到简约 (π\pi-系与分布函数)

1. 困境

虽然我们通过 σ\sigma-代数排除了“病态”集合,但博雷尔代数 B(R)\mathcal{B}(\mathbb{R}) 本身的结构依然极其复杂。它包含了所有区间、开集、闭集,以及它们的极限和可数组合,我们根本无法一一列举。

这就导致了一个实际操作上的难题:

如何验证一个函数 XX 是可测的?难道要检查每一个 BB(R)B \in \mathcal{B}(\mathbb{R}) 吗? 如何定义一个概率分布?难道要对每一个 BB(R)B \in \mathcal{B}(\mathbb{R}) 都指定一个概率值吗?

答案是否定的。我们需要一种更简单的方法。

2. 生成元与 π\pi-系

回顾 σ\sigma-代数的定义: Def 2.1:由集合族生成的 σ\sigma-代数 给定一个集合族 G\mathcal{G},由 G\mathcal{G} 生成的 σ\sigma-代数 σ(G)\sigma(\mathcal{G}) 是所有包含 G\mathcal{G}σ\sigma-代数中最小的那一个。G\mathcal{G} 被称为生成元。

幸运的是,对于博雷尔代数,存在一个极其简单的生成元。

Def 2.2:π\pi-系 (π\pi-system) 一个集合族 P\mathcal{P},如果对有限交集运算封闭(即 A,BP    ABPA, B \in \mathcal{P} \implies A \cap B \in \mathcal{P}),它就是 π\pi-系。

定理 2.1:实数轴上的 π\pi-系生成元I={(,x]:xR}\mathcal{I} = \{ (-\infty, x] : x \in \mathbb{R} \}。 那么 I\mathcal{I} 是一个 π\pi-系,并且 σ(I)=B(R)\sigma(\mathcal{I}) = \mathcal{B}(\mathbb{R})

3. 存在性与唯一性

有了“生成元”这个概念,数学家为我们提供了两份强有力的担保:

  1. 可测性判定:要验证 XX 可测,我们不需要检查所有 BB(R)B \in \mathcal{B}(\mathbb{R})。只需要检查生成元 I\mathcal{I} 就足够了。即:只要对所有 xRx \in \mathbb{R},都有 X1((,x])FX^{-1}((-\infty, x]) \in \mathcal{F},那么 XX 就是可测的。
  2. 测度唯一性(Carathéodory 扩张):一个定义在 π\pi-系 I\mathcal{I} 上的测度(在满足一定条件下),可以唯一地扩张到整个 σ(I)=B(R)\sigma(\mathcal{I}) = \mathcal{B}(\mathbb{R}) 上。

结论:这意味着,无论是验证还是定义,我们都只需要处理那个简单的 π\pi-系 I\mathcal{I} 就好了!

备注:π\pi-λ\lambda 定理(Dynkin 定理)

上述”从生成元扩张”的严格保证来自一个更深层的结构定理:

如果两个概率测度在一个 π\pi-系上一致,那么它们在由该 π\pi-系生成的 σ\sigma-代数上也一致。

证明策略是引入 λ\lambda-系(Dynkin 系):一个包含 Ω\Omega、对补集封闭、对不相交可数并封闭的集合族。Dynkin 定理断言:包含 π\pi-系 P\mathcal{P} 的最小 λ\lambda-系等于 σ(P)\sigma(\mathcal{P})。这样就可以先在 π\pi-系上验证,再”免费”扩张到整个 σ\sigma-代数。

这个定理是概率论中反复出现的核心工具:证明独立性、证明分布唯一性、证明鞅性质等,几乎都在某处用到它。

4. 概率分布的诞生

有了这些工具,我们就可以清晰地定义一个随机变量的分布

过程图示: 随机变量 XX 像一个转换器,它把原始概率空间中的概率“推送”到了实数轴上。

(Ω,F)X(R,B)LXAX1BP(A)\begin{array}{ccccc} (\Omega, \mathcal{F}) & \xrightarrow{\quad X \quad} & (\mathbb{R}, \mathcal{B}) & \xrightarrow{\quad \mathcal{L}_X \quad} & \\ A & \xleftarrow{\quad X^{-1} \quad} & B & & \\ P(A) & & & & \end{array}

定义 2.3:分布 (Law/Distribution) 随机变量 XX 的分布 LX\mathcal{L}_X 是一个定义在 (R,B)(\mathbb{R}, \mathcal{B}) 上的概率测度,其定义为:

LX(B):=P(X1(B))for all BB(R)\mathcal{L}_X(B) := P(X^{-1}(B)) \quad \text{for all } B \in \mathcal{B}(\mathbb{R})

5. 从“分布”到“分布函数”的简化

现在,我们应用测度唯一性的结论来简化这个定义。 我们不需要知道 LX\mathcal{L}_X 在所有博雷尔集上的取值。我们只需要知道它在 π\pi-系 I={(,x]}\mathcal{I} = \{ (-\infty, x] \} 上的取值就足够了。

定义 2.4:累积分布函数 (CDF) 随机变量 XX 的累积分布函数 FXF_X 是一个从 R\mathbb{R}[0,1][0,1] 的函数,其定义为:

FX(x):=LX((,x])=P(X1((,x]))=P(Xx)F_X(x) := \mathcal{L}_X((-\infty, x]) = P(X^{-1}((-\infty, x])) = P(X \le x)

Chapter 4: lim sup,lim inf\limsup, \liminf 与 Borel-Cantelli

1. 极限的扩展

在数学分析中,我们用 lim sup\limsuplim inf\liminf 来描述一个震荡序列的最终行为。

定义 3.1:实数序列的上下极限

  • lim supxn=infmsupnmxn\limsup x_n = \inf_m \sup_{n \ge m} x_n
  • lim infxn=supminfnmxn\liminf x_n = \sup_m \inf_{n \ge m} x_n

我们可以把这个概念完美地移植到事件序列 E1,E2,E_1, E_2, \dots 上。

定义 3.2:事件序列的上极限 (Infinitely Often)

lim supEn:=(En, i.o.):=m=1n=mEn\limsup E_n := (E_n, \text{ i.o.}) := \bigcap_{m=1}^{\infty} \bigcup_{n=m}^{\infty} E_n

这个定义的直观含义是 “事件 EnE_n 发生无穷多次”

用指示函数翻译: 我们可以利用指示函数 IEI_E 将集合逻辑转化为 0/1 的算术。

  • IAn=supIAnI_{\cup A_n} = \sup I_{A_n}
  • IAn=infIAnI_{\cap A_n} = \inf I_{A_n}

于是,一个样本点 ω\omega 属于 lim supEn\limsup E_n 的指示函数可以被直接翻译:

Ilim supEn(ω)=infmsupnmIEn(ω)=lim supIEn(ω)I_{\limsup E_n}(\omega) = \inf_m \sup_{n \ge m} I_{E_n}(\omega) = \limsup I_{E_n}(\omega)
  • 直觉:如果事件 EnE_nω\omega 这条世界线上发生了无穷多次,那么指示函数序列 IEn(ω)I_{E_n}(\omega) 中就会有无穷多个 1,其上极限必然为 1。反之则为 0。

定义 3.3:事件序列的下极限

lim infEn:=(En, ev):=m=1n=mEn\liminf E_n := (E_n, \text{ ev}) := \bigcup_{m=1}^{\infty} \bigcap_{n=m}^{\infty} E_n

直观含义是 “事件 EnE_n 最终总是发生”。 其指示函数同样满足:Ilim infEn(ω)=lim infIEn(ω)I_{\liminf E_n}(\omega) = \liminf I_{E_n}(\omega)

2. 法都引理

有了这些记号,我们就可以探讨“极限的概率”与“概率的极限”之间的关系。

定理 3.1:反向法都引理 对于概率空间,有:

P(lim supEn)lim supP(En)P(\limsup E_n) \ge \limsup P(E_n)
  • 物理意义:左边是“无穷多次成功”的总概率,右边是“单次成功概率”在无穷远处的最高水平。这个定理告诉我们,只要单次成功的可能性没有彻底熄灭,那么“最终取得无穷多次胜利”的概率至少不会低于这个火花的最高亮度。
  • 例子:抛一枚不均匀的硬币,单数次正面概率 0.8,双数次 0.1。
    • 右边 lim supP(En)=0.8\limsup P(E_n) = 0.8
    • 左边 P(En, i.o.)=1P(E_n, \text{ i.o.}) = 1(因为成功的机会永远存在)。
    • 10.81 \ge 0.8

定理 3.2:法都引理

P(lim infEn)lim infP(En)P(\liminf E_n) \le \liminf P(E_n)
  • 物理意义:“最终总是成功”是一个极其严苛的条件,它的概率会被“单次成功概率”的最低水平死死压住,就像链条的强度取决于最弱的一环。

3. 博雷尔-肯泰利第一引理

这是上述思想最强大的应用之一,它告诉我们概率是如何“消失”的

定理 3.3:BC 1 如果一串事件的概率之和是有限的(级数收敛),n=1P(En)<\sum_{n=1}^\infty P(E_n) < \infty,那么:

P(En, i.o.)=0P(E_n, \text{ i.o.}) = 0

证明思路

  1. Gm=nmEnG_m = \bigcup_{n \ge m} E_n(从第 mm 天起至少发生一次)。
  2. lim supEnGm\limsup E_n \subseteq G_m,所以 P(lim supEn)P(Gm)P(\limsup E_n) \le P(G_m)
  3. 根据次可加性,P(Gm)n=mP(En)P(G_m) \le \sum_{n=m}^\infty P(E_n)
  4. 因为总级数收敛,所以尾部和 n=mP(En)0\sum_{n=m}^\infty P(E_n) \to 0mm \to \infty
  5. 通过夹逼,P(lim supEn)=0P(\limsup E_n) = 0

BC 1 的意义:它给出了一个事件序列**“最终必然会停止发生”**的充分条件。

  • 例子:一个随机算法在第 nn 步出错的概率是 1/n21/n^2
    • P(Errorn)=1/n2=π2/6<\sum P(\text{Error}_n) = \sum 1/n^2 = \pi^2/6 < \infty
    • 根据 BC 1,该算法“出错无穷多次”的概率是 0。
    • 结论:几乎必然地 (a.s.),这个算法在运行到某个有限的步骤之后,就再也不会出错了。

4. 博雷尔-肯泰利第二引理(逆定理)

BC 1 告诉我们级数收敛时事件几乎必然停止发生。自然的问题是:如果级数发散呢?

定理 3.4:BC 2 如果 E1,E2,E_1, E_2, \dots相互独立的事件,且 n=1P(En)=\sum_{n=1}^\infty P(E_n) = \infty,则

P(En, i.o.)=1P(E_n, \text{ i.o.}) = 1

证明思路

  1. 对固定的 mm,考虑互补事件 P(n=mNEnc)P(\bigcap_{n=m}^N E_n^c)
  2. 由独立性,P(n=mNEnc)=n=mN(1P(En))P(\bigcap_{n=m}^N E_n^c) = \prod_{n=m}^N (1 - P(E_n))
  3. 利用不等式 1xex1 - x \le e^{-x}(对 x0x \ge 0),得 n=mN(1P(En))exp(n=mNP(En))\prod_{n=m}^N (1 - P(E_n)) \le \exp\bigl(-\sum_{n=m}^N P(E_n)\bigr)
  4. 因为级数发散,NN \to \infty 时右边趋于 0。
  5. 所以 P(n=mEnc)=0P(\bigcap_{n=m}^\infty E_n^c) = 0,即 P(n=mEn)=1P(\bigcup_{n=m}^\infty E_n) = 1
  6. 对所有 mm 取交:P(lim supEn)=1P(\limsup E_n) = 1

BC 1 与 BC 2 的对比

条件结论
BC 1P(En)<\sum P(E_n) < \inftyP(En i.o.)=0P(E_n \text{ i.o.}) = 0
BC 2P(En)=\sum P(E_n) = \infty 且独立P(En i.o.)=1P(E_n \text{ i.o.}) = 1

BC 2 中的独立性条件不可省略。存在 P(En)=\sum P(E_n) = \inftyP(En i.o.)<1P(E_n \text{ i.o.}) < 1 的相依事件序列——例如取 EnEE_n \equiv E 对某个 P(E)=1/2P(E) = 1/2 的固定事件。

BC 引理的零一律特征:对独立事件,BC 1+2 合在一起给出一个完美的二分法:P(En i.o.)P(E_n \text{ i.o.}) 只能是 0 或 1,取决于级数 P(En)\sum P(E_n) 是否收敛。这实际上是 Kolmogorov 零一律 在尾事件上的一个特例。


Chapter 5 : 可测性工具箱

我们在已经定义了随机变量(可测函数),即要求对于所有博雷尔集 BB(R)B \in \mathcal{B}(\mathbb{R}),其原像 X1(B)X^{-1}(B) 都必须是合法的事件。 这一节将介绍一系列命题和引理,它们使得这个看似复杂的要求在实践中变得易于操作。

1. 判定准则:从“全部”到“局部”

引理 4.1:可测性的生成元判定 (引理 3.2 b, d) 要证明一个函数 X:ΩRX: \Omega \to \mathbb{R} 是可测的,我们不需要检查所有的博雷尔集。我们只需要检查博雷尔集的生成元即可。 最实用的判定准则是:

如果对于任意实数 cRc \in \mathbb{R},集合 {ω:X(ω)c}\{ \omega : X(\omega) \le c \} 都是一个合法的事件(即 X1((,c])FX^{-1}((-\infty, c]) \in \mathcal{F}),那么 XX 就是一个可测函数。

意义:这个引理是分布函数 (CDF) 合法性的基石。它将一个无穷维度的判定问题(检查所有 B\mathcal{B}),降维成了一个一维的扫描问题(检查所有 cc)。

2. 稳定性 I:代数运算下的封闭性

引理 4.2:可测函数的代数运算 (引理 3.3) 如果 XXYY 都是可测函数(随机变量),那么它们的和 X+YX+Y、差 XYX-Y、积 XYXY、以及商 X/YX/Y(在 Y0Y \neq 0 的地方)也都是可测函数。

3. 稳定性 II:极限运算下的封闭性

引理 4.3:函数序列极限的可测性 (引理 3.5) 如果 (Xn)(X_n) 是一列可测函数,那么它们的上确界 supXn\sup X_n、下确界 infXn\inf X_n、上极限 lim supXn\limsup X_n、下极限 lim infXn\liminf X_n 也都是可测函数。 进一步地,这列函数收敛的样本点集合 {ω:limXn(ω) exists}\{ \omega : \lim X_n(\omega) \text{ exists} \} 也是一个合法的事件。

意义:这是测度论优于普通微积分(连续性)的地方。

  • 它保证了我们可以安全地讨论随机过程的长期行为
  • **“强大数定律”**之所以能被严谨地提出,正是因为这个引理保证了“样本均值是否收敛”是一个可以被计算概率的合法事件。
  • 它构成了从“有限”通向“无穷”的桥梁,是鞅论和随机过程理论的基石。

4. 兼容性

引理 4.4:复合函数的可测性 (引理 3.4) 如果 XX 是一个可测函数(随机变量),而 f:RRf: \mathbb{R} \to \mathbb{R} 是一个博雷尔函数(例如,任何连续函数),那么它们的复合 f(X)f(X) 也是一个可测函数。

意义:这个引理给应用数学家和统计学家提供了极大的便利。它意味着,我们可以对随机变量进行任何“正常”的函数变换(如 X2,sin(X),eXX^2, \sin(X), e^X),得到的新对象依然是合法的随机变量,其概率分布可以被继续研究。


参考

  • Williams, D. Probability with Martingales. Cambridge, 1991. — Chapter 1-5 对应本文的核心内容
  • Durrett, R. Probability: Theory and Examples. 5th ed., Cambridge, 2019. — Borel-Cantelli 引理的标准参考
  • Billingsley, P. Probability and Measure. 3rd ed., Wiley, 1995. — Carathéodory 扩张定理的详细构造
  • Banach, S. & Tarski, A. “Sur la décomposition des ensembles de points en parties respectivement congruentes.” Fund. Math. 6, 1924. — 分球悖论的原始论文
END

Series: Probability Theory

  1. 1. 概率论随笔 1:测度、sigma-代数与随机变量
  2. 2. 概率论随笔 2:期望、条件与独立性
  3. 3. 概率论随笔 2.5:一些细节

Comments