单调类方法
我们从一个例题开始:
设\(\xi,\eta\)为两个随机变量,则以下断言等价:
(1)\(\forall x \in \mathbb{R},\mathbb{P}(\xi
\leq x)=\mathbb{P}(\eta \leq x)\)
(2)对任何Borel集
B,\(\mathbb{P}(\xi \in
\rm{B})=\mathbb{P}(\eta \in \rm{B})\)
(3)对任何有界(或非负)Borel可测函数f,\(\mathbb{E}\rm{f}(\xi)=\mathbb{E}\rm{f}(\eta)\)
事实上注意到\(\mathbb{P}(\xi \in
\rm{B})=\mathbb{E}1_{\rm{B}}\)所以上述的等价命题(1)(2)(3)是逐渐一般化的过程。(2)推(3)由Borel集上的简单函数逼近可得,但(1)推(2)有本质困难。考虑使(2)中等式成立的集合全体\(\mathcal{B}\),我们希望它是\(\sigma\)-代数,这样由(1)中条件可得成立,但事实上难以验证可列并的条件(因为他不对有限交封闭),我们只能由概率的性质给出其对于不交可列并封闭。我们需要新的方法来给出这一证明。
首先给出两个概念,称一个子集为\(\pi\)-类,如果他对有限交封闭,称一个子集为\(\lambda\)-类,如果他包含有空集和全集且对补集与不交可列并封闭。注意到任意多\(\lambda\)-类的交为\(\lambda\)-类,因此对任意子集\(\mathcal{A}\),唯一存在包含\(\mathcal{A}\)的最小\(\lambda\)-类,记作\(\lambda(\mathcal{A})\)。基于对上述命题的研究,我们尝试给出以下定理。
定理1.1.1 设\(\mathcal{F}\)为一个\(\lambda\)-类,\(\mathcal{F}_0\)是一个\(\pi\)-类且\(\mathcal{F}_0 \subset
\mathcal{F}\),则\(\sigma(\mathcal{F}_0) \subset
\mathcal{F}\),简单来说,一个包含\(\pi\)-类的\(\lambda\)-类必定包含该\(\pi\)-类生成的\(\sigma\)-代数。
证明
由\(\mathcal{F}\)为\(\lambda\)-类,我们有\(\lambda(\mathcal{F}_0) \subset
\mathcal{F}\),则只需说明\(\lambda(\mathcal{F}_0)\)为\(\sigma\)-代数,也即说明其对有限交封闭即可。
\[\forall \mathcal{A} \in
\lambda(\mathcal{F}_0), \mathcal{K}[\mathcal{A}]:=\{\rm{B}\in
\lambda(\mathcal{F}_0): \mathcal{A}\cap\rm{B} \in
\lambda(\mathcal{F}_0)\}\] 首先验证\(\mathcal{K}[\mathcal{A}]\)始终为\(\lambda\)-类,于是由\(\mathcal{F}_0\subset\mathcal{K}[\mathcal{A}]\)(定义验证即可)得到\(\lambda(\mathcal{F}_0)\subset\mathcal{K}[\mathcal{A}]\),故根据定义\(\lambda(\mathcal{F}_0)\)为\(\pi\)-类,也即是\(\sigma\)-代数。
对例题中的开区间和Borel集用该定理即得命题成立。
可测性和条件期望
我们知道一个随机现象对应概率空间\((\Omega,\mathcal{F},\mathbb{P})\),那么对于他的子事件域\(\mathcal{G}\),我们如果掌握其信息,就是说我们知道其中每一件事是否发生。那么对于一个随机变量\(X\),如果\(X\)在两个事件上取值相同,那么仅凭他的值无法分辨两个事件。所以\(X\)给出的子事件域\(\sigma(X)\)为其像内所有开集的原像形成的最小\(\sigma\)-代数。进而我们有可测性的概念,随机变量\(Y\)关于\(\mathcal{G}\)可测是指\(Y\)的信息被包含在\(\mathcal{G}\)中,也就是\(\sigma(Y)\in
\mathcal{G}\),即对任何Borel集\(B\),\(Y^{-1}(B)\in \mathcal{G}\),也即\(\forall y\in \mathbb{R}, \{Y\leq y\}\in
\mathcal{G}\)。
我们考虑真正影响一个子事件域的大小的因素,发现其实只跟那些“最小”的集合有关,也即是分无可分的集合。于是我们称一个非空集合\(A\in\mathcal{G}\)为\(\mathcal{G}\)的原子,如果除了空集和自身,他不再包含\(\mathcal{G}\)中其他元素作为子集。我们从一类简单的情况开始进一步考虑可测随机变量的结构。如果样本空间\(\Omega\)有有限分类\(\{\Omega_i:1\leq i \leq
n\}\)(即其两两不交且并集为\(\Omega\)),则其生成的子事件域以\(\Omega_i\)为原子,则关于该子事件域可测的随机变量\(Y\)应该有形式 \[Y=\sum_{j=1}^{n}a_j 1_{\Omega_j}\]
以下这个定理是上述结果更一般的推论。
定理1.2.1
随机变量\(\rm{Y}\)关于\(\rm{X}\)可测,即\(\sigma(\rm{Y})\subset
\sigma(\rm{X})\)当且仅当\(Y\)是\(X\)的函数,即存在Borel可测函数f使\(\rm{Y}=\rm{f} (X)\)
证明 只需对任何Borel可测的g有Borel可测的f使\(\rm{g}(Y)=\rm{f}(X)\),通过Borel集上的简单函数逼近即可。
至此我们大致讨论完了随机变量关于事件域可测的情况,但事实上我们在生活中不总是能碰到这样的情况,也即是我们不总能获得关于一个随机变量的所有信息,但获得的信息仍有可能影响对随机变量结果的判断。因此我们尝试引入条件期望\(\mathbb{E}(\rm{X}|\mathcal{F})\)来表示\(\rm{X}\)在事件域\(\mathcal{F}\)下的期望。我们希望能够给出条件期望更详细的刻画。
还是让我们从离散子事件域开始给出符合直觉的条件期望刻画开始。直觉上来说,条件期望和条件概率密不可分,我们有全概率公式
\[\mathbb{P}(\mathcal{A})=\sum_{j=1}^{n}\mathbb{P}(\mathcal{A}|\Omega_j)\mathbb{P}(\Omega_j)\]
注意到事件\(\mathcal{A}\)可以看作随机变量\(1_{\mathcal{A}}\),且我们有\(\mathbb{P}(\mathcal{A})=\mathbb{E}(1_{\mathcal{A}})\),故通过逼近我们将其推广为随机变量的情况:
\[\mathbb{E}\rm{Y}=\sum_{j=1}^{n}\mathbb{E}(\rm{Y}|\Omega_j)\mathbb{P}(\Omega_j)\]
其中\(\rm{Y}\)为可积随机变量,\(\mathbb{E}(\rm{Y}|\Omega_j)\)代表了事件\(\Omega_j\)上的平均。也即更一般地对任何事件\(\rm{B}\),我们有 \[\mathbb{E}(\rm{Y}|\rm{B})=
{\mathbb{E}(\rm{Y}1_{\mathcal{\rm{B}}})\over\mathbb{P}(\rm{B})}\]
仔细观察随机变量版本地全概率公式右侧,其为随机变量\(\xi=\sum_{j=1}^{n}\mathbb{P}(\mathcal{A}|\Omega_j)1_{\Omega_j}\)的期望,该随机变量在原子上的取值是\(\rm{Y}\)在该原子上的平均,因此自然而然把这个随机变量称为\(\rm{Y}\)关于该离散事件域\(\mathcal{G}\)的条件期望\(\mathbb{E}(\rm{Y}|\mathcal{G})\)。我们进一步给出如下引理,证明只需用定义验证即可。
引理1.2.2 下面三命题等价:
1.\(\rm{Y}'=\mathbb{E}(\rm{Y}|\mathcal{G})\)
2.\(\rm{Y}'\)是\(\mathcal{G}\)可测的,且对任何随机变量\(\rm{X}\)有\(\mathbb{E}(\rm{Y}-\rm{Y}')^2
\leq\mathbb{E}(\rm{Y}-\rm{X})^2\)
3.\(\rm{Y}'\)是\(\mathcal{G}\)可测的且\(\forall \mathcal{A}
\in\mathcal{G}\)我们有\(\mathbb{E}(\rm{Y}'1_{\mathcal{A}})=\mathbb{E}(\rm{Y}1_{\mathcal{A}})\)
上面这个引理很好地给出了条件期望的另两个刻画,2表明在直观上条件期望\(\mathbb{E}(\rm{Y}|\mathcal{G})\)是所有已知信息(\(\mathcal{G}\)可测)下离原本随机变量最近的,3给出了一种判断条件期望的好方法。让我们结束在简单情况下的讨论并基于此给出条件期望的一般定义。
定义 设\(\rm{Y}\)为可积随机变量,\(\mathcal{G}\)是一个子事件域,那么存在唯一的关于\(\mathcal{G}\)可测的随机变量\(\rm{Y}'\),满足\(\forall \mathcal{A} \in\mathcal{G} ,
\mathbb{E}(\rm{Y}'1_{\mathcal{A}})=\mathbb{E}(\rm{Y}1_{\mathcal{A}})\),称为\(\rm{Y}\)关于\(\mathcal{G}\)的条件期望,记作\(\mathbb{E}(\rm{Y}|\mathcal{G})\),如果\(\rm{X}\)是一个随机变量,那么\(\mathbb{E}(\rm{Y}|\rm{X}):=\mathbb{E}(\rm{Y}|\sigma(\rm{X}))\)
条件期望的良定由以下简单的引理保证
引理1.2.3
如果\(\rm{Y}_1\),\(\rm{Y}_2\)都关于\(\mathcal{G}\)可测且满足\(\forall \mathcal{A} \in\mathcal{G}\),\(\mathbb{E}(\rm{Y}_11_{\mathcal{A}})=\mathbb{E}(\rm{Y}_21_{\mathcal{A}})\)那么\(\rm{Y}_1=\rm{Y}_2\) a.s.
如此定义的条件期望满足我们希望的种种性质,包括线性、保序等,在此不再赘述,我们仅仅关注之前在离散子事件域中的结论,将其推广至一般情况:
定理1.2.4 设\(\rm{Y}\)为平方可积随机变量,\(\mathcal{G}\)是一个子事件域,则\(\mathbb{E}(\rm{Y}-\mathbb{E}(\rm{Y}|\mathcal{G}))^2=\inf
\{\mathbb{E}(\rm{Y}-\rm{X})^2:\rm{X}为关于\mathcal{G}可测的平方可积随机变量\}\)
证明 与离散子事件域中的证明类似: \[
\begin{align*}
\mathbb{E}(\rm{Y}-\rm{X})^2&=\mathbb{E}(\rm{Y}-\mathbb{E}(\rm{Y}|\mathcal{G}))^2+\mathbb{E}(\mathbb{E}(\rm{Y}|\mathcal{G})-\rm{X})^2+2\mathbb{E}[(\rm{Y}-\mathbb{E}(\rm{Y}|\mathcal{G}))(\mathbb{E}(\rm{Y}|\mathcal{G})-\rm{X})]\\
&=\mathbb{E}(\rm{Y}-\mathbb{E}(\rm{Y}|\mathcal{G}))^2+\mathbb{E}(\mathbb{E}(\rm{Y}|\mathcal{G})-\rm{X})^2
\end{align*}
\] 我们再给出条件期望的另一重要性质——条件期望的Jensen不等式
定理1.2.5(条件期望的Jensen不等式) 当f凸时, \[\rm{f}(\mathbb{E}(\rm{X}|\mathcal{G}))\leq\mathbb{E}(f(\rm{X})|\mathcal{G})\]
证明 熟知凸函数性质\(\forall
\rm{x},x_0\in \mathbb{R}\) \[\rm{f}(x)\geq\rm{f}(x_0)+f'(x_0)(x-x_0)\]
将\(\rm{X},\mathbb{E}(\rm{X}|\mathcal{G})\)代入得到
\[\rm{f}(X)\geq\rm{f}(\mathbb{E}(\rm{X}|\mathcal{G}))+f'(\mathbb{E}(\rm{X}|\mathcal{G}))(X-\mathbb{E}(\rm{X}|\mathcal{G}))\]
两边对\(\mathcal{G}\)取条件期望得到定理结论。