Chapter 0 一切的伊始
遥远的过去,宇宙还是一切茫茫,一切的中心只有一个黝黑的实心球…
然后,博雷尔说:
“Axiom of Choice”
然后,宇宙便有了两个球。
Chapter 1: 为什么要引入测度论?
1. 朴素的愿望
在我们最初的设想中,概率论应该是非常直观的。
假设我们有一个样本空间 Ω,我们希望定义一个概率函数 P,能够衡量 Ω 中任意一个子集的概率。
Def:
对于 Ω 的幂集 P(Ω),我们希望存在一个映射 P:P(Ω)→[0,1],满足以下公理:
- 非负性:对于任意 A⊆Ω,有 P(A)≥0。
- 归一性:P(Ω)=1。
- 可数可加性:对于互不相交的集合序列 A1,A2,…,有:
P(n=1⋃∞An)=n=1∑∞P(An)
2. 分球悖论
然而,现代数学的基础公理体系中包含 选择公理。
数学家发现,如果承认 AC,并试图在 R3 上对所有子集定义满足上述公理的测度,会导致严重的逻辑矛盾。
- 现象(Banach-Tarski 悖论, 1924):我们可以将一个三维实心球体切割成有限块(实际上只需 5 块),然后通过旋转和平移(不改变形状和体积),重新拼凑成 两个 和原来一模一样的实心球。
- 矛盾:如果测度(体积/概率)对所有集合都有定义,那么我们就会得出 1=1+1⟹1=2 的荒谬结论。
结论:在承认选择公理的前提下,不存在一个能定义在幂集 P(Ω) 上、且满足可数可加性的非平凡测度。
这意味着:样本空间中存在一些“极度破碎、不可测量”的怪兽集合——不可测集(Vitali 集是最经典的一维例子)。
3. 解决方案:sigma-代数
为了挽救概率论,我们必须退一步:不再试图测量所有的子集,而是剔除那些“病态”的集合,只在一个安全区内定义概率。
这个构建“安全区”的数学过程大致如下(Carathéodory 扩张定理的思路):
-
外测度:
先不管三七二十一,用一堆开区间(或开矩形)去覆盖任何一个集合 E,取这些覆盖体积下确界。这能给所有集合算出一个“外壳大小”,但它不满足可数可加性(1+1=2)。
-
卡拉西奥多里条件:
我们需要挑选出那些“切分得很干净”的集合。定义一个集合 E 是可测的,当且仅当它对任意集合 A 都能像刀一样整齐切开:
μ∗(A)=μ∗(A∩E)+μ∗(A∩Ec)
(直觉:如果 E 边缘极其破碎,这一等式将不成立)
-
验证封闭性:
数学家惊喜地发现,满足上述条件的所有集合构成了一个完美的代数结构:它们对补集运算封闭,对可数并运算封闭。
-
提炼公理:
我们不再每次都重复上述复杂的构造过程,而是直接将这个“完美结构”的性质提炼出来,定义为 σ-代数。
4. 概率空间
基于上述逻辑,现代概率论不再建立在 P(Ω) 上,而是建立在一个三元组 (Ω,F,P) 上。
Def 0.1:σ-代数
F 是 Ω 的子集族,满足:
- 全集在内:Ω∈F。
- 补集封闭:若 A∈F,则 Ac∈F。
- 可数并封闭:若 A1,A2,⋯∈F,则 ⋃n=1∞An∈F。
只有 F 中的元素才被称为 “事件”,才有资格被计算概率。
定义 0.2:概率测度
映射 P:F→[0,1] 满足:
- P(Ω)=1。
- 可数可加性:对于互不相交的 An∈F,有 P(∪An)=∑P(An)。
Chapter 2: 随机变量
1. “既不随机,也不是变量”
我们在高中或初等概率论中熟知的随机变量,从测度论的角度看,是一个具有误导性的历史遗留术语。
- 它不是变量:在任何一次具体的试验中,它一旦被确定,就只是一个普通的数。
- 它的随机性不来自自身:它的随机性完全继承自其定义域——样本空间 Ω 中的不确定性。
Def 1.1:随机变量
一个随机变量 X 是一个从样本空间 Ω 到实数轴 R 的函数。
X:Ω→R
- 例子:在抛硬币的实验中,Ω={正面,反面}。
我们可以定义一个随机变量 X:
X(ω)={1,0,如果 ω=正面如果 ω=反面
2. “过滤器” X−1
我们如何计算关于随机变量的概率,比如 P(X=1)
显然,P 函数的输入必须是一个集合(事件)。“X=1”本身不是 Ω 的子集。
我们真正想计算的是:“所有那些导致 X 取值为 1 的样本点 ω 构成的集合的概率。”
这就引出了随机变量的核心工作机制:拉回。
定义 1.2:原像 X−1
对于实数轴 R 上的任意一个子集 B⊆R,其原像 X−1(B) 是 Ω 中的一个子集,定义为:
X−1(B):={ω∈Ω:X(ω)∈B}
你可以把 X−1 理解为一个过滤器:
你在实数轴(结果空间)指定一个目标区域 B,X−1 就会在样本空间 Ω(原因空间)中过滤出所有能产生该结果的样本点。
3. 可测性:确保“过滤器”的合法性
既然我们计算概率的公式是 P(X∈B)=P(X−1(B)),这就带来了一个至关重要的问题:
我们如何保证,对于任何我们感兴趣的目标区域 B,X−1(B) 这个原像集合都是一个合法的事件(即 X−1(B)∈F)?
这就是可测性的由来。
- 我们最感兴趣的目标区域是开区间 (a,b),因为它们是微积分和分析学的基础。
- 为了让我们的概率体系具有逻辑完备性,我们必须允许对这些基础集合进行可数次的并、交、补运算。
- 由所有开区间通过可数次运算生成的集合族,就是博雷尔 σ-代数 B(R)。
结论:为了让随机变量 X 与我们的概率空间 (Ω,F,P) 兼容,我们必须要求:对于任何博雷尔集 B∈B(R),它的原像 X−1(B) 都必须属于我们定义好的 σ-代数 F。
满足此条件的函数 X 就被称为 F-可测的。
Chapter 3: 从复杂到简约 (π-系与分布函数)
1. 困境
虽然我们通过 σ-代数排除了“病态”集合,但博雷尔代数 B(R) 本身的结构依然极其复杂。它包含了所有区间、开集、闭集,以及它们的极限和可数组合,我们根本无法一一列举。
这就导致了一个实际操作上的难题:
如何验证一个函数 X 是可测的?难道要检查每一个 B∈B(R) 吗?
如何定义一个概率分布?难道要对每一个 B∈B(R) 都指定一个概率值吗?
答案是否定的。我们需要一种更简单的方法。
2. 生成元与 π-系
回顾 σ-代数的定义:
Def 2.1:由集合族生成的 σ-代数
给定一个集合族 G,由 G 生成的 σ-代数 σ(G) 是所有包含 G 的 σ-代数中最小的那一个。G 被称为生成元。
幸运的是,对于博雷尔代数,存在一个极其简单的生成元。
Def 2.2:π-系 (π-system)
一个集合族 P,如果对有限交集运算封闭(即 A,B∈P⟹A∩B∈P),它就是 π-系。
定理 2.1:实数轴上的 π-系生成元
令 I={(−∞,x]:x∈R}。
那么 I 是一个 π-系,并且 σ(I)=B(R)。
3. 存在性与唯一性
有了“生成元”这个概念,数学家为我们提供了两份强有力的担保:
- 可测性判定:要验证 X 可测,我们不需要检查所有 B∈B(R)。只需要检查生成元 I 就足够了。即:只要对所有 x∈R,都有 X−1((−∞,x])∈F,那么 X 就是可测的。
- 测度唯一性(Carathéodory 扩张):一个定义在 π-系 I 上的测度(在满足一定条件下),可以唯一地扩张到整个 σ(I)=B(R) 上。
结论:这意味着,无论是验证还是定义,我们都只需要处理那个简单的 π-系 I 就好了!
备注:π-λ 定理(Dynkin 定理)
上述”从生成元扩张”的严格保证来自一个更深层的结构定理:
如果两个概率测度在一个 π-系上一致,那么它们在由该 π-系生成的 σ-代数上也一致。
证明策略是引入 λ-系(Dynkin 系):一个包含 Ω、对补集封闭、对不相交可数并封闭的集合族。Dynkin 定理断言:包含 π-系 P 的最小 λ-系等于 σ(P)。这样就可以先在 π-系上验证,再”免费”扩张到整个 σ-代数。
这个定理是概率论中反复出现的核心工具:证明独立性、证明分布唯一性、证明鞅性质等,几乎都在某处用到它。
4. 概率分布的诞生
有了这些工具,我们就可以清晰地定义一个随机变量的分布。
过程图示:
随机变量 X 像一个转换器,它把原始概率空间中的概率“推送”到了实数轴上。
(Ω,F)AP(A)XX−1(R,B)BLX
定义 2.3:分布 (Law/Distribution)
随机变量 X 的分布 LX 是一个定义在 (R,B) 上的概率测度,其定义为:
LX(B):=P(X−1(B))for all B∈B(R)
5. 从“分布”到“分布函数”的简化
现在,我们应用测度唯一性的结论来简化这个定义。
我们不需要知道 LX 在所有博雷尔集上的取值。我们只需要知道它在 π-系 I={(−∞,x]} 上的取值就足够了。
定义 2.4:累积分布函数 (CDF)
随机变量 X 的累积分布函数 FX 是一个从 R 到 [0,1] 的函数,其定义为:
FX(x):=LX((−∞,x])=P(X−1((−∞,x]))=P(X≤x)
Chapter 4: limsup,liminf 与 Borel-Cantelli
1. 极限的扩展
在数学分析中,我们用 limsup 和 liminf 来描述一个震荡序列的最终行为。
定义 3.1:实数序列的上下极限
- limsupxn=infmsupn≥mxn
- liminfxn=supminfn≥mxn
我们可以把这个概念完美地移植到事件序列 E1,E2,… 上。
定义 3.2:事件序列的上极限 (Infinitely Often)
limsupEn:=(En, i.o.):=m=1⋂∞n=m⋃∞En
这个定义的直观含义是 “事件 En 发生无穷多次”。
用指示函数翻译:
我们可以利用指示函数 IE 将集合逻辑转化为 0/1 的算术。
- I∪An=supIAn
- I∩An=infIAn
于是,一个样本点 ω 属于 limsupEn 的指示函数可以被直接翻译:
IlimsupEn(ω)=minfn≥msupIEn(ω)=limsupIEn(ω)
- 直觉:如果事件 En 在 ω 这条世界线上发生了无穷多次,那么指示函数序列 IEn(ω) 中就会有无穷多个 1,其上极限必然为 1。反之则为 0。
定义 3.3:事件序列的下极限
liminfEn:=(En, ev):=m=1⋃∞n=m⋂∞En
直观含义是 “事件 En 最终总是发生”。
其指示函数同样满足:IliminfEn(ω)=liminfIEn(ω)。
2. 法都引理
有了这些记号,我们就可以探讨“极限的概率”与“概率的极限”之间的关系。
定理 3.1:反向法都引理
对于概率空间,有:
P(limsupEn)≥limsupP(En)
- 物理意义:左边是“无穷多次成功”的总概率,右边是“单次成功概率”在无穷远处的最高水平。这个定理告诉我们,只要单次成功的可能性没有彻底熄灭,那么“最终取得无穷多次胜利”的概率至少不会低于这个火花的最高亮度。
- 例子:抛一枚不均匀的硬币,单数次正面概率 0.8,双数次 0.1。
- 右边 limsupP(En)=0.8。
- 左边 P(En, i.o.)=1(因为成功的机会永远存在)。
- 1≥0.8。
定理 3.2:法都引理
P(liminfEn)≤liminfP(En)
- 物理意义:“最终总是成功”是一个极其严苛的条件,它的概率会被“单次成功概率”的最低水平死死压住,就像链条的强度取决于最弱的一环。
3. 博雷尔-肯泰利第一引理
这是上述思想最强大的应用之一,它告诉我们概率是如何“消失”的。
定理 3.3:BC 1
如果一串事件的概率之和是有限的(级数收敛),∑n=1∞P(En)<∞,那么:
P(En, i.o.)=0
证明思路:
- 令 Gm=⋃n≥mEn(从第 m 天起至少发生一次)。
- limsupEn⊆Gm,所以 P(limsupEn)≤P(Gm)。
- 根据次可加性,P(Gm)≤∑n=m∞P(En)。
- 因为总级数收敛,所以尾部和 ∑n=m∞P(En)→0 当 m→∞。
- 通过夹逼,P(limsupEn)=0。
BC 1 的意义:它给出了一个事件序列**“最终必然会停止发生”**的充分条件。
- 例子:一个随机算法在第 n 步出错的概率是 1/n2。
- ∑P(Errorn)=∑1/n2=π2/6<∞。
- 根据 BC 1,该算法“出错无穷多次”的概率是 0。
- 结论:几乎必然地 (a.s.),这个算法在运行到某个有限的步骤之后,就再也不会出错了。
4. 博雷尔-肯泰利第二引理(逆定理)
BC 1 告诉我们级数收敛时事件几乎必然停止发生。自然的问题是:如果级数发散呢?
定理 3.4:BC 2
如果 E1,E2,… 是相互独立的事件,且 ∑n=1∞P(En)=∞,则
P(En, i.o.)=1
证明思路:
- 对固定的 m,考虑互补事件 P(⋂n=mNEnc)。
- 由独立性,P(⋂n=mNEnc)=∏n=mN(1−P(En))。
- 利用不等式 1−x≤e−x(对 x≥0),得 ∏n=mN(1−P(En))≤exp(−∑n=mNP(En))。
- 因为级数发散,N→∞ 时右边趋于 0。
- 所以 P(⋂n=m∞Enc)=0,即 P(⋃n=m∞En)=1。
- 对所有 m 取交:P(limsupEn)=1。
BC 1 与 BC 2 的对比:
| 条件 | 结论 |
|---|
| BC 1 | ∑P(En)<∞ | P(En i.o.)=0 |
| BC 2 | ∑P(En)=∞ 且独立 | P(En i.o.)=1 |
BC 2 中的独立性条件不可省略。存在 ∑P(En)=∞ 但 P(En i.o.)<1 的相依事件序列——例如取 En≡E 对某个 P(E)=1/2 的固定事件。
BC 引理的零一律特征:对独立事件,BC 1+2 合在一起给出一个完美的二分法:P(En i.o.) 只能是 0 或 1,取决于级数 ∑P(En) 是否收敛。这实际上是 Kolmogorov 零一律 在尾事件上的一个特例。
Chapter 5 : 可测性工具箱
我们在已经定义了随机变量(可测函数),即要求对于所有博雷尔集 B∈B(R),其原像 X−1(B) 都必须是合法的事件。
这一节将介绍一系列命题和引理,它们使得这个看似复杂的要求在实践中变得易于操作。
1. 判定准则:从“全部”到“局部”
引理 4.1:可测性的生成元判定 (引理 3.2 b, d)
要证明一个函数 X:Ω→R 是可测的,我们不需要检查所有的博雷尔集。我们只需要检查博雷尔集的生成元即可。
最实用的判定准则是:
如果对于任意实数 c∈R,集合 {ω:X(ω)≤c} 都是一个合法的事件(即 X−1((−∞,c])∈F),那么 X 就是一个可测函数。
意义:这个引理是分布函数 (CDF) 合法性的基石。它将一个无穷维度的判定问题(检查所有 B),降维成了一个一维的扫描问题(检查所有 c)。
2. 稳定性 I:代数运算下的封闭性
引理 4.2:可测函数的代数运算 (引理 3.3)
如果 X 和 Y 都是可测函数(随机变量),那么它们的和 X+Y、差 X−Y、积 XY、以及商 X/Y(在 Y=0 的地方)也都是可测函数。
3. 稳定性 II:极限运算下的封闭性
引理 4.3:函数序列极限的可测性 (引理 3.5)
如果 (Xn) 是一列可测函数,那么它们的上确界 supXn、下确界 infXn、上极限 limsupXn、下极限 liminfXn 也都是可测函数。
进一步地,这列函数收敛的样本点集合 {ω:limXn(ω) exists} 也是一个合法的事件。
意义:这是测度论优于普通微积分(连续性)的地方。
- 它保证了我们可以安全地讨论随机过程的长期行为。
- **“强大数定律”**之所以能被严谨地提出,正是因为这个引理保证了“样本均值是否收敛”是一个可以被计算概率的合法事件。
- 它构成了从“有限”通向“无穷”的桥梁,是鞅论和随机过程理论的基石。
4. 兼容性
引理 4.4:复合函数的可测性 (引理 3.4)
如果 X 是一个可测函数(随机变量),而 f:R→R 是一个博雷尔函数(例如,任何连续函数),那么它们的复合 f(X) 也是一个可测函数。
意义:这个引理给应用数学家和统计学家提供了极大的便利。它意味着,我们可以对随机变量进行任何“正常”的函数变换(如 X2,sin(X),eX),得到的新对象依然是合法的随机变量,其概率分布可以被继续研究。
参考
- Williams, D. Probability with Martingales. Cambridge, 1991. — Chapter 1-5 对应本文的核心内容
- Durrett, R. Probability: Theory and Examples. 5th ed., Cambridge, 2019. — Borel-Cantelli 引理的标准参考
- Billingsley, P. Probability and Measure. 3rd ed., Wiley, 1995. — Carathéodory 扩张定理的详细构造
- Banach, S. & Tarski, A. “Sur la décomposition des ensembles de points en parties respectivement congruentes.” Fund. Math. 6, 1924. — 分球悖论的原始论文