单调类方法

我们从一个例题开始：
设\(\xi,\eta\)为两个随机变量，则以下断言等价：
（1）\(\forall x \in \mathbb{R},\mathbb{P}(\xi \leq x)=\mathbb{P}(\eta \leq x)\)
（2）对任何Borel集 B，\(\mathbb{P}(\xi \in \rm{B})=\mathbb{P}(\eta \in \rm{B})\)
（3）对任何有界（或非负）Borel可测函数f，\(\mathbb{E}\rm{f}(\xi)=\mathbb{E}\rm{f}(\eta)\)
事实上注意到\(\mathbb{P}(\xi \in \rm{B})=\mathbb{E}1_{\rm{B}}\)所以上述的等价命题（1）（2）（3）是逐渐一般化的过程。（2）推（3）由Borel集上的简单函数逼近可得，但（1）推（2）有本质困难。考虑使（2）中等式成立的集合全体\(\mathcal{B}\)，我们希望它是\(\sigma\)-代数，这样由（1）中条件可得成立，但事实上难以验证可列并的条件（因为他不对有限交封闭），我们只能由概率的性质给出其对于不交可列并封闭。我们需要新的方法来给出这一证明。
首先给出两个概念，称一个子集为\(\pi\)-类，如果他对有限交封闭，称一个子集为\(\lambda\)-类，如果他包含有空集和全集且对补集与不交可列并封闭。注意到任意多\(\lambda\)-类的交为\(\lambda\)-类，因此对任意子集\(\mathcal{A}\)，唯一存在包含\(\mathcal{A}\)的最小\(\lambda\)-类，记作\(\lambda(\mathcal{A})\)。基于对上述命题的研究，我们尝试给出以下定理。
定理1.1.1 设\(\mathcal{F}\)为一个\(\lambda\)-类，\(\mathcal{F}_0\)是一个\(\pi\)-类且\(\mathcal{F}_0 \subset \mathcal{F}\)，则\(\sigma(\mathcal{F}_0) \subset \mathcal{F}\)，简单来说，一个包含\(\pi\)-类的\(\lambda\)-类必定包含该\(\pi\)-类生成的\(\sigma\)-代数。
证明由\(\mathcal{F}\)为\(\lambda\)-类，我们有\(\lambda(\mathcal{F}_0) \subset \mathcal{F}\)，则只需说明\(\lambda(\mathcal{F}_0)\)为\(\sigma\)-代数，也即说明其对有限交封闭即可。
\[\forall \mathcal{A} \in \lambda(\mathcal{F}_0)， \mathcal{K}[\mathcal{A}]:=\{\rm{B}\in \lambda(\mathcal{F}_0): \mathcal{A}\cap\rm{B} \in \lambda(\mathcal{F}_0)\}\] 首先验证\(\mathcal{K}[\mathcal{A}]\)始终为\(\lambda\)-类，于是由\(\mathcal{F}_0\subset\mathcal{K}[\mathcal{A}]\)（定义验证即可）得到\(\lambda(\mathcal{F}_0)\subset\mathcal{K}[\mathcal{A}]\)，故根据定义\(\lambda(\mathcal{F}_0)\)为\(\pi\)-类，也即是\(\sigma\)-代数。
对例题中的开区间和Borel集用该定理即得命题成立。

可测性和条件期望

我们知道一个随机现象对应概率空间\((\Omega,\mathcal{F},\mathbb{P})\)，那么对于他的子事件域\(\mathcal{G}\)，我们如果掌握其信息，就是说我们知道其中每一件事是否发生。那么对于一个随机变量\(X\)，如果\(X\)在两个事件上取值相同，那么仅凭他的值无法分辨两个事件。所以\(X\)给出的子事件域\(\sigma(X)\)为其像内所有开集的原像形成的最小\(\sigma\)-代数。进而我们有可测性的概念，随机变量\(Y\)关于\(\mathcal{G}\)可测是指\(Y\)的信息被包含在\(\mathcal{G}\)中，也就是\(\sigma(Y)\in \mathcal{G}\)，即对任何Borel集\(B\)，\(Y^{-1}(B)\in \mathcal{G}\)，也即\(\forall y\in \mathbb{R}, \{Y\leq y\}\in \mathcal{G}\)。
我们考虑真正影响一个子事件域的大小的因素，发现其实只跟那些“最小”的集合有关，也即是分无可分的集合。于是我们称一个非空集合\(A\in\mathcal{G}\)为\(\mathcal{G}\)的原子，如果除了空集和自身，他不再包含\(\mathcal{G}\)中其他元素作为子集。我们从一类简单的情况开始进一步考虑可测随机变量的结构。如果样本空间\(\Omega\)有有限分类\(\{\Omega_i:1\leq i \leq n\}\)（即其两两不交且并集为\(\Omega\)），则其生成的子事件域以\(\Omega_i\)为原子，则关于该子事件域可测的随机变量\(Y\)应该有形式 \[Y=\sum_{j=1}^{n}a_j 1_{\Omega_j}\] 以下这个定理是上述结果更一般的推论。
定理1.2.1 随机变量\(\rm{Y}\)关于\(\rm{X}\)可测，即\(\sigma(\rm{Y})\subset \sigma(\rm{X})\)当且仅当\(Y\)是\(X\)的函数，即存在Borel可测函数f使\(\rm{Y}=\rm{f} (X)\)
证明只需对任何Borel可测的g有Borel可测的f使\(\rm{g}(Y)=\rm{f}(X)\)，通过Borel集上的简单函数逼近即可。
至此我们大致讨论完了随机变量关于事件域可测的情况，但事实上我们在生活中不总是能碰到这样的情况，也即是我们不总能获得关于一个随机变量的所有信息，但获得的信息仍有可能影响对随机变量结果的判断。因此我们尝试引入条件期望\(\mathbb{E}(\rm{X}|\mathcal{F})\)来表示\(\rm{X}\)在事件域\(\mathcal{F}\)下的期望。我们希望能够给出条件期望更详细的刻画。
还是让我们从离散子事件域开始给出符合直觉的条件期望刻画开始。直觉上来说，条件期望和条件概率密不可分，我们有全概率公式 \[\mathbb{P}(\mathcal{A})=\sum_{j=1}^{n}\mathbb{P}(\mathcal{A}|\Omega_j)\mathbb{P}(\Omega_j)\] 注意到事件\(\mathcal{A}\)可以看作随机变量\(1_{\mathcal{A}}\)，且我们有\(\mathbb{P}(\mathcal{A})=\mathbb{E}(1_{\mathcal{A}})\)，故通过逼近我们将其推广为随机变量的情况： \[\mathbb{E}\rm{Y}=\sum_{j=1}^{n}\mathbb{E}(\rm{Y}|\Omega_j)\mathbb{P}(\Omega_j)\] 其中\(\rm{Y}\)为可积随机变量，\(\mathbb{E}(\rm{Y}|\Omega_j)\)代表了事件\(\Omega_j\)上的平均。也即更一般地对任何事件\(\rm{B}\)，我们有 \[\mathbb{E}(\rm{Y}|\rm{B})= {\mathbb{E}(\rm{Y}1_{\mathcal{\rm{B}}})\over\mathbb{P}(\rm{B})}\] 仔细观察随机变量版本地全概率公式右侧，其为随机变量\(\xi=\sum_{j=1}^{n}\mathbb{P}(\mathcal{A}|\Omega_j)1_{\Omega_j}\)的期望，该随机变量在原子上的取值是\(\rm{Y}\)在该原子上的平均，因此自然而然把这个随机变量称为\(\rm{Y}\)关于该离散事件域\(\mathcal{G}\)的条件期望\(\mathbb{E}(\rm{Y}|\mathcal{G})\)。我们进一步给出如下引理，证明只需用定义验证即可。
引理1.2.2 下面三命题等价：
1.\(\rm{Y}'=\mathbb{E}(\rm{Y}|\mathcal{G})\)
2.\(\rm{Y}'\)是\(\mathcal{G}\)可测的，且对任何随机变量\(\rm{X}\)有\(\mathbb{E}(\rm{Y}-\rm{Y}')^2 \leq\mathbb{E}(\rm{Y}-\rm{X})^2\)
3.\(\rm{Y}'\)是\(\mathcal{G}\)可测的且\(\forall \mathcal{A} \in\mathcal{G}\)我们有\(\mathbb{E}(\rm{Y}'1_{\mathcal{A}})=\mathbb{E}(\rm{Y}1_{\mathcal{A}})\)
上面这个引理很好地给出了条件期望的另两个刻画，2表明在直观上条件期望\(\mathbb{E}(\rm{Y}|\mathcal{G})\)是所有已知信息（\(\mathcal{G}\)可测）下离原本随机变量最近的，3给出了一种判断条件期望的好方法。让我们结束在简单情况下的讨论并基于此给出条件期望的一般定义。
定义设\(\rm{Y}\)为可积随机变量，\(\mathcal{G}\)是一个子事件域，那么存在唯一的关于\(\mathcal{G}\)可测的随机变量\(\rm{Y}'\)，满足\(\forall \mathcal{A} \in\mathcal{G} , \mathbb{E}(\rm{Y}'1_{\mathcal{A}})=\mathbb{E}(\rm{Y}1_{\mathcal{A}})\)，称为\(\rm{Y}\)关于\(\mathcal{G}\)的条件期望，记作\(\mathbb{E}(\rm{Y}|\mathcal{G})\)，如果\(\rm{X}\)是一个随机变量，那么\(\mathbb{E}(\rm{Y}|\rm{X}):=\mathbb{E}(\rm{Y}|\sigma(\rm{X}))\)
条件期望的良定由以下简单的引理保证
引理1.2.3 如果\(\rm{Y}_1\)，\(\rm{Y}_2\)都关于\(\mathcal{G}\)可测且满足\(\forall \mathcal{A} \in\mathcal{G}\)，\(\mathbb{E}(\rm{Y}_11_{\mathcal{A}})=\mathbb{E}(\rm{Y}_21_{\mathcal{A}})\)那么\(\rm{Y}_1=\rm{Y}_2\) a.s.
如此定义的条件期望满足我们希望的种种性质，包括线性、保序等，在此不再赘述，我们仅仅关注之前在离散子事件域中的结论，将其推广至一般情况：
定理1.2.4 设\(\rm{Y}\)为平方可积随机变量，\(\mathcal{G}\)是一个子事件域，则\(\mathbb{E}(\rm{Y}-\mathbb{E}(\rm{Y}|\mathcal{G}))^2=\inf \{\mathbb{E}(\rm{Y}-\rm{X})^2:\rm{X}为关于\mathcal{G}可测的平方可积随机变量\}\)
证明与离散子事件域中的证明类似： \[ \begin{align*} \mathbb{E}(\rm{Y}-\rm{X})^2&=\mathbb{E}(\rm{Y}-\mathbb{E}(\rm{Y}|\mathcal{G}))^2+\mathbb{E}(\mathbb{E}(\rm{Y}|\mathcal{G})-\rm{X})^2+2\mathbb{E}[(\rm{Y}-\mathbb{E}(\rm{Y}|\mathcal{G}))(\mathbb{E}(\rm{Y}|\mathcal{G})-\rm{X})]\\ &=\mathbb{E}(\rm{Y}-\mathbb{E}(\rm{Y}|\mathcal{G}))^2+\mathbb{E}(\mathbb{E}(\rm{Y}|\mathcal{G})-\rm{X})^2 \end{align*} \] 我们再给出条件期望的另一重要性质——条件期望的Jensen不等式
定理1.2.5（条件期望的Jensen不等式） 当f凸时， \[\rm{f}(\mathbb{E}(\rm{X}|\mathcal{G}))\leq\mathbb{E}(f(\rm{X})|\mathcal{G})\] 证明熟知凸函数性质\(\forall \rm{x},x_0\in \mathbb{R}\) \[\rm{f}(x)\geq\rm{f}(x_0)+f'(x_0)(x-x_0)\] 将\(\rm{X},\mathbb{E}(\rm{X}|\mathcal{G})\)代入得到 \[\rm{f}(X)\geq\rm{f}(\mathbb{E}(\rm{X}|\mathcal{G}))+f'(\mathbb{E}(\rm{X}|\mathcal{G}))(X-\mathbb{E}(\rm{X}|\mathcal{G}))\] 两边对\(\mathcal{G}\)取条件期望得到定理结论。

奇怪的地方

随机过程笔记（一）——预备知识

单调类方法

可测性和条件期望