概率论
Warning
本文正在逐渐重构中。如果标题没有序号,表示该部分已经重构完成。
基本概念
随机事件与样本空间
随机事件定义为某件事情的发生情况,比起这些情况都是取决于观察的结果,没有外物干预。
样本空间定义为随机事件发生的总集合 \(\Omega\)。
随机事件之间的关系与运算一般可以转化为离散数学中的集合论进行分析,常见的有如下几种:
- 包含:\(A \subset B\) or \(B \subset A\);
- 相等:\(A=B\);
- 并/和:\(A \cup B\);
- 交/积:\(A \cap B \quad (AB)\);
- 互斥/互不相容:\(AB=\Phi\);
- 对立事件/余事件:\(A \cap B=\Phi \land A \cup B=\Omega\);
- 差:\(A-B=A \cap \overline{B} = A \overline B\);
- 德摩根律。
概率的定义及其性质
有如下三种定义方式:
- 统计定义:认为概率 = 频率;
- 古典定义:认为样本空间是有限集,其中每个随机事件发生的概率是等可能的。例如:分房问题、生日问题等排列组合问题;
- 几何定义:认为样本空间是不可列的(无法表示为离散的形式),其中每个随机事件发生的概率同样是等可能的。例如:公交车乘车(一维)、蒲丰 (Buffon) 投针(二维)等几何概率问题。
随机事件的概率模型
条件概率。以 \(A,B\) 两个随机事件为例,在 \(A\) 发生的情况下 \(B\) 发生的概率模型如下:
联合概率。计算方法上使用了乘法原理,其一般式如下:
特别地,当 \(n=2\) 时,就是我们很熟悉的计算公式:
全概模型。我们将样本空间 \(\Omega\) 完全划分为 \(n\) 个互斥的区域,即 \(\Omega = \sum_{i=1}^{n} A_i\) ,则在样本空间中事件 \(B\) 发生的概率 \(P(B)\) 就是在各子样本空间中的概率之和:
贝叶斯模型。在上述全概模型的基础之上,现在想要求第 \(j\) 个子样本空间对于事件 \(B\) 的发生贡献的概率占所有子空间贡献的概率的比,那么就是一个条件概率:
可以发现全概模型是将「求解当前事件的发生概率」拆分为了「求解所有子样本空间对当前事件的发生概率之和」,而贝叶斯模型则是追溯各个子样本空间对于当前事件发生概率的贡献占比。前者是正向思维,后者是逆向思维。
随机事件的独立性
独立性定义。若 \(A_1,A_2,...,A_n\) 相互独立,则有:
且 \(\hat{A_1},\hat{A_2},...,\hat{A_n}\) 也相互独立,其中 \(\hat{A_i} = A_i \ or \ \overline{A_i}\ (1\le i \le n)\)。
注意:相互独立与两两独立不是一个意思。对于 \(n\) 个事件,两两独立不考虑三个及以上的独立关系,而相互独立需要考虑 \(2 \to n\) 个事件的独立关系。也就是说两两独立需要满足 \(C_n^2\) 个等式关系,对于相互独立需要满足 \(2^n-(n+1)\) 个等式关系,因此,两两独立 \(\subset\) 相互独立。
伯努利概型。顺序发生 \(n\) 个随机事件,随机事件之间相互独立并且只有两种可能的结果(假设为发生和不发生),利用上述的独立性定义,就有下面两个概率计算公式:
1)\(n\) 个随机事件发生 \(k\) 次的概率(二项概率):
2)第 \(n\) 个随机事件首次发生的概率(几何概率):
随机变量
本节我们讨论只含有一个变量的随机事件,这里的变量就可以称作随机变量,比如人类的年龄、人类的身高、抛一枚骰子的情况等。我们主要研究三个内容:
- 随机变量的密度函数(比如人类的身高为一米八的概率);
- 随机变量的分布函数(比如人类身高在一米六到两米之间的概率);
- 随机变量函数(比如已知体重是身高的 \(0.8\) 倍,我想知道人类体重的密度与分布)。
上述三点将会按「离散型」和「连续型」分别展开。
随机变量的定义与性质
随机变量。随机变量默认用大写字母 \(X\) 来表示,定义域就是样本空间 \(\Omega=\{ \omega \}\)。
密度函数。一般用小写的 \(p\) 来表示,例如 \(p(x)\) 就表示随机变量 \(X=x\) 发生的概率,等价于 \(P(X=x)\)。
分布函数。一般用大写的 \(F\) 来表示,例如 \(F(x)\) 就表示随机变量 \(X\le x\) 发生的概率,等价于 \(P(X\le x)\)。形式上定义为:
一些性质。密度函数和分布函数均有下面的性质,其实都比较显然,简单理解一下就懂了:
表 1. 随机变量的密度函数和分布函数满足的一些性质
性质 | 表达式 |
---|---|
非负性 | \(p(x) \ge 0\) |
正规性 | \(\int_{-\infty}^{+\infty} p(x)dx = 1\) |
可积性 | \(\forall x_1 \le x_2,P(x_1 \le X \le x_2) = F(x_2) - F(x_1) = \int_{x_1}^{x_2}p(x)dx\) |
可导性 | 若 \(p(x)\) 在点 \(x\) 处连续,则 \(F'(x) = p(x)\) |
有界性 | \(0 \le F(x) \le 1\),即 \(\displaystyle F(-\infty) = \lim_{x \to -\infty} F(x) = 0\),\(\displaystyle F(+\infty) = \lim_{x \to +\infty} F(x) = 1\) |
单调性 | 若 \(x_1 < x_2\),则 \(F(x_1) \le F(x_2)\) |
右连续性 | \(\displaystyle \lim_{x\to x_0^+}F(x) = F(x_0)\quad(-\infty < x_0 < +\infty)\) |
注:离散型随机变量可以通过枚举随机变量 \(X\) 的取值来计算概率,但连续型随机变量这么做是无意义的。因为对于连续型随机变量:
因此在连续型随机变量的情况下,\(P(A) = 0\) 不能推出 \(A\) 是不可能事件,同理 \(P(A)=1\) 也不能推出 \(A\) 是必然事件。事实上,连续型随机变量中,利用分布函数计算密度函数取值是借助了微分的思想:
密度函数和分布函数(离散型)
Tip
其实离散型随机变量的密度函数应该叫做「分布列」的,但是本质就是密度函数,我们统一成一个说法。
离散型随机变量的取值是可列的,有以下三种表示方法:
表 2. 离散型随机变量的表示方法
名称 | 表达式 |
---|---|
公式法 | \(p_k = P(X=x_k),\quad k = 1,2,\cdots\) |
服从法 | \(X \sim \begin{pmatrix}x_1 & x_2 & x_3 & \cdots \\ p_1 & p_2 & p_3 & \cdots \end{pmatrix}\) |
表格法 | \(\begin{array}{c:cccc} X & x_1 & x_2 & x_3 & \cdots \\ \hline P & p_1 & p_2 & p_3 & \cdots \end{array}\) |
知道了离散型随机变量的表示方法后,我们介绍几个常用的离散型随机变量及其密度函数,分布函数累加就行了,这里不展开。
0-1 分布(两点分布):随机变量只有两种可能的取值。
- 密度函数:\(P(X=0)=1-p,P(X=1)=p\),其中 \(0\le p\le 1\);
- 记作:\(X \sim \begin{pmatrix} 0 & 1 \\ 1-p & p \end{pmatrix}\)。
二项分布(n 重伯努利试验):\(P(X=k)\) 表示 \(n\) 次相互独立的 0-1 分布事件中,有 \(k\) 次事件发生的概率。
- 密度函数:\(P(X=k) = C_n^k \cdot p^k \cdot (1-p)^{n-k}\),其中 \(k\in \{0,1,\cdots,n\}\);
- 记作:\(X \sim B(n,p)\)。
泊松分布:当二项分布的 \(n\) 趋近于无穷时,就近似成了泊松分布。
- 密度函数:\(\displaystyle P(X=k)=C_n^k \cdot p^k \cdot (1-p)^{n-k} \to \frac{\lambda^k}{k!}\cdot e^{-\lambda}\),其中常数 \(\lambda > 0\);
- 记作:\(X \sim P(\lambda)\)。
泊松分布正规性证明:
证毕。其中倒数第三行用到了 \(e^x\) 的泰勒展开公式:
几何分布:\(P(X=k)\) 表示 \(n\) 次相互独立的 0-1 分布事件中,第 \(k\) 次事件首次发生的概率。
- 密度函数:\(P(X=k)=(1-p)^{k-1}p\),其中 \(k\in \{0,1,\cdots,n\}\);
- 记作:\(X \sim G(p)\)。
超几何分布:\(P(X=k)\) 表示在 \(N\) 件含有 \(M\) 个次品的样品总体中无放回的抽取 \(n\) 件,其中含有 \(k\) 件次品的概率。
- 密度函数:\(\displaystyle P(X=k)=\frac{C_M^k C_{N-M}^{n-k}}{C_N^n}\),其中 \(k\in \{0,1,2,\cdots,\min{(n, M)}\}\);
- 记作:\(X \sim \text{超几何分布}(n,N,M)\)。
密度函数和分布函数(连续型)
介绍几个常用的连续型随机变量及其密度函数和分布函数:
名称 | 记法 | 密度函数表达式 | 分布函数表达式 |
---|---|---|---|
均匀分布 | \(X \sim U[a,b]\) | \(p(x) = \begin{cases} \frac{1}{b-a}, & a \le x \le b, \\ 0, & \text{其他} \end{cases}\) | \(F(x) = \begin{cases} 0, & x < a \\ \frac{x - a}{b - a}, & a \le x < b \\ 1, & x \ge b \end{cases}\) |
指数分布 | \(X \sim e (\lambda)\) | \(p(x) = \begin{cases} 0, & x < 0 \\ \lambda e^{-\lambda x} , & x \ge 0 \end{cases},\quad\lambda >0\) | \(F(x) = \begin{cases} 0, & x < 0 \\ 1- e^{-\lambda x}, & x \ge 0 \end{cases}\) |
正态分布 | \(X \sim N(\mu,\sigma^2)\) | \(p(x) = \frac{1}{\sqrt{2 \pi} \sigma } e^{- \frac{(x - \mu)^2}{2 \sigma ^2}} , \quad -\infty < x < + \infty\) | \(F(x) = \frac{1}{\sqrt{2 \pi} \sigma } \int_{- \infty}^x e^{- \frac{(y - \mu)^2}{2 \sigma ^2}} dy\) |
表 3. 连续型随机变量及其密度函数和分布函数
注:为了手算方便,在计算一般正态分布函数 \(F(x)\) 的具体函数值时,可以先将其转化为标准正态分布函数 \(\Phi(x)\),然后直接查表就可以得到具体函数值,转换公式如下:
随机变量函数
所谓随机变量函数,就是将一个随机变量 \(X\) 通过某种映射关系 \(g(\cdot)\) 转换为一个新的随机变量 \(Y\),即 \(y=g(x)\),然后通过 \(p_X(x)\) 求出 \(p_Y(y)\) 和 \(F_Y(y)\) 的一个过程。应用场景也挺常见的,比如已知身高和体重存在某种关系,然后还知道身高的密度函数,就可以直接算出来体重的密度函数和分布函数了。
对于离散型随机变量。直接根据映射关系 \(g(\cdot)\) 枚举 \(X\) 就可以得到 \(Y\) 的密度函数和分布函数了,没什么学问在里面。
对于连续型随机变量。有两种方法:
1)先求 \(Y\) 的分布函数 \(F_Y(y)\),再通过对其求导得到密度函数 \(p_Y(y)\)。具体地:
2)如果关系式 \(y=g(x)\) 单调且反函数 \(x=h(y)\) 连续可导,则可以直接得出随机变量 \(Y\) 的密度函数 \(p_Y(y)\):
公式不予证明。其中 \(\alpha\) 和 \(\beta\) 为 \(Y=g(X)\) 的取值范围(\(x\) 应该怎么取值,\(h(y)\) 就应该怎么取值,从而计算出 \(y\) 的取值范围)。
随机向量
实际生活中,只采用一个随机变量描述事件往往是不够的,因为一个事件可能包含多个随机变量,比如对于人类这个群体而言,随机变量有身高、体重、年龄等等,所有的随机变量组合起来就称作随机向量。本章重点介绍二维随机向量,即只有两个随机变量的情况,\(n\) 维随机向量正常扩展即可。
Tip
注意,教材中关于二维随机向量有很多变种,例如:联合分布、边缘分布、条件分布,这里将其统一在一起。
随机向量的定义与性质
密度函数和分布函数都是多元的了,以二元连续型为例,离散型算连续型的子集,就不在此处赘述。
性质 | 表达式 |
---|---|
非负性 | \(\forall x,y \in R,\ p(x,y) \ge 0\) |
正规性 | \(\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} p(x,y)dxdy = 1\) |
独立性 | 若随机变量 \(X\) 和 \(Y\) 相互独立,则 \(F(x,y)=F_X(x)\cdot F_Y(y)=P_X(X\le x) \cdot P_Y(Y\le y)\) |
函数独立性 | 若随机变量 \(X\) 和 \(Y\) 相互独立,且 \(h(\cdot)\) 和 \(g(\cdot)\) 连续,则 \(h(X),g(Y)\) 也相互独立 |
表 4. 随机向量的密度函数和分布函数满足的一些性质
密度函数和分布函数(离散型)
联合密度函数。若二维随机向量 \((X,Y)\) 的所有可能取值是「可列」的,则称 \((X,Y)\) 为二维离散型随机向量。即:
边缘密度函数。固定一个随机变量,另外的随机变量取遍,可以理解为此时就是随机变量的情况。即:
我们称:
-
\(P(X=x_i)\) 为随机向量 \((X,Y)\) 关于 \(X\) 的边缘密度函数;
-
\(P(Y=y_j)\) 为随机向量 \((X,Y)\) 关于 \(Y\) 的边缘密度函数。
条件密度函数。将变量的样本空间从二维变成了一维。即:
我们称:
-
\(p_{i\mid j}\) 为在给定 \(Y=y_j\) 的条件下 \(X\) 的条件分布函数;
-
\(p_{j\mid i}\) 为在给定 \(X=x_i\) 的条件下 \(Y\) 的条件分布函数。
分布函数就是累加一下,这里不再赘述。
密度函数和分布函数(连续型)
联合分布函数。定义式如下:
可以数形结合来理解,联合分布函数的几何意义就是联合密度函数在左下方无界矩形的定义域取值下积分的结果:
图 1. 联合分布函数的几何意义
显然,若概率密度曲面在 \(xOy\) 平面的投影为点集或线集,则对应的概率为零。常见的连续型二元联合分布如下:
1)二维均匀分布:假设该曲面与 \(xOy\) 面的投影面积为 \(S\),则分布函数其实就是一个高为定值 \(\frac{1}{S}\) 的柱体,密度函数为:
2)二元正态分布:不要求掌握密度函数,可以感受一下密度函数的图像:
图 2. 二元正态分布的密度函数图像
边缘密度函数。与离散型类似:
我们称:
-
\(P(X=x)\) 为随机向量 \((X,Y)\) 关于 \(X\) 的边缘密度函数;
-
\(P(Y=y)\) 为随机向量 \((X,Y)\) 关于 \(Y\) 的边缘密度函数。
边缘分布函数。我们称 \(F_X(x),F_Y(y\)) 分别为 \((X,Y)\) 关于 \(X,Y\) 的边缘分布函数,定义式为:
条件密度函数。与离散型类似,是一条曲线:
我们称:
- \(p(x\mid y)\) 为在给定 \(Y=y\) 的条件下 \(X\) 的条件密度函数;
- \(p(y\mid x)\) 为在给定 \(X=x\) 的条件下 \(Y\) 的条件密度函数。
条件分布函数。即上述曲线的积分结果:
我们称:
- \(F(x\mid y)\) 为在给定 \(Y=y\) 的条件下 \(X\) 的条件分布函数;
- \(F(y\mid x)\) 为在给定 \(X=x\) 的条件下 \(Y\) 的条件分布函数。
随机向量函数
假设我们已经知道了一个人群的身高 X、体重 Y 分布情况,同时还知道血糖 Z 与身高体重两个变量之间的映射关系 \(g(\cdot, \cdot)\),现在想要求解血糖的密度函数和分布函数,怎么办呢?这就涉及到了随机向量函数的转换关系。
对于离散型随机向量。同样按照转换规则枚举即可。
对于连续型随机向量。与连续型随机变量函数的分布类似,这类题目一般也是:给定随机向量 \((X,Y)\) 的密度函数 \(p(x,y)\) 和 映射函数 \(g(x,y)\),现在需要求解 \(Z=g(X,Y)\) 的分布函数(若 \(g(x,y)\) 二元连续,则 \(Z\) 也是连续型随机变量)。方法同理,先求解 \(Z\) 的分布函数,再对 \(z\) 求导得到密度函数 \(p_Z(z)\)。接介绍两种常见的随机向量函数。
1)和的分布
先求分布函数 \(F_Z(z)\):
由分布函数定义:
所以可得 \(Z=X+Y\) 的密度函数 \(p_Z(z)\) 为:
若 X 和 Y 相互独立,还可得卷积式:
2)次序统计量的分布(随机变量 X 和 Y 相互独立)
对于 \(M=\max{(X,Y)}\) 的分布函数,有:
对于 \(N=\min{(X,Y)}\) 的分布函数,有:
若拓展到 \(n\) 个相互独立且同分布的随机变量,则有:
数字特征
有时人们并不关心事件的分布,只关心其中的一些特征,比如比较两地的收入水平,看看均值即可;同时,前文中一些概率分布中含有一些参数,其实也就是这些分布的某个特征。概率论中称这些特征为「数字特征」,本章将会介绍「期望、方差、协方差、相关系数」共四种数字特征。
期望
就是 加权平均 的另一种称呼。以连续型为例:
期望 | 表达式 |
---|---|
随机变量 | \(EX = \int_{-\infty}^{+\infty} x\cdot p(x)dx\) |
随机变量函数 | \(Eg(X) = \int_{-\infty}^{+\infty}g(x)\cdot p(x)dx\) |
随机向量 1 | \(E(X,Y) = (EX, EY)\) |
随机向量函数 | \(Eg(X,Y) = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x_i,y_i)\cdot p(x,y)dxdy\) |
表 5. 连续型随机变量/向量(函数)的期望
运算 | 表达式 |
---|---|
常量 | \(EC=C\) |
乘 | \(E(CX)=CEX\) |
和 | \(E(X+Y)=EX+EY\) |
独立 | 若 \(X\) 和 \(Y\) 相互独立,则 \(E(XY)=EXEY\) |
表 6. 连续型随机变量/向量(函数)期望的性质
4.2 方差
随机变量的取值与均值之间的离散程度。
4.2.1 方差的定义
我们定义随机变量 \(X\) 的方差 \(D(X)\) 为:(全部可由期望的性质推导而来)
4.2.2 方差的性质
下列方差的性质全部可由上述方差的定义式,结合期望的性质推导而来:
-
\(D(aX+b) = a^2D(X)\)
-
若 \(X_1,X_2,\cdots\) 相互独立,则 \(D(aX_1 \pm bX_2 \pm \cdots) = a^2D(X_1) + b^2D(X_2) + \cdots\)
-
\(E\left[ (X-EX)^2 \right] \le E \left [ (X-C)^2 \right ]\)
-
切比雪夫不等式:
\[ \forall \epsilon >0, P(|X - EX| < \epsilon) \ge 1 - \frac{DX}{\epsilon^2} \]
4.3 结论与推导(补)
类型 | 分布 | 符号 | 期望 \(E(X)\) | 方差 \(D(X)\) |
---|---|---|---|---|
离散型 | 0-1 分布 | \(X \sim \begin{pmatrix} 0 & 1 \\ 1-p & p \end{pmatrix}\) | \(p\) | \(p(1-p)\) |
--- | *二项分布 | \(X \sim B(n,p)\) | \(np\) | \(np(1-p)\) |
--- | 几何分布 | \(X \sim G(p)\) | \(\displaystyle \frac{1}{p}\) | \(\displaystyle \frac{1-p}{p^2}\) |
--- | *泊松分布 | \(X \sim P(\lambda)\) | \(\lambda\) | \(\lambda\) |
连续型 | 均匀分布 | \(X \sim U[a,b]\) | \(\displaystyle \frac{a+b}{2}\) | \(\displaystyle \frac{(b-a)^2}{12}\) |
--- | 指数分布 | \(X \sim e(\lambda)\) | \(\displaystyle \frac{1}{\lambda}\) | \(\displaystyle \frac{1}{\lambda^2}\) |
--- | *正态分布 | \(X \sim N(\mu,\sigma^2)\) | \(\mu\) | \(\sigma^2\) |
注:打星号表示在两个随机变量 \(X,Y\) 相互独立时,具备可加性。具体的:
4.4 协方差与相关系数
4.4.1 协方差
定义:随机变量 X 与 Y 的协方差 \(Cov(X,Y)\) 为:
特别的:
性质:
- 交换律:\(Cov(X,Y)=Cov(Y,X)\)
- 提取率:\(Cov(aX,bY)=abCov(X,Y)\)
- 分配率:\(Cov(X_1+X_2,Y) = Cov(X_1,Y)+Cov(X_2,Y)\)
- 独立性:若 X 与 Y 相互独立,则 \(Cov(X,Y)=0\);反之不一定成立
- 放缩性:\(\left[Cov(X,Y)\right]^2 \le DX \cdot DY\)
4.4.2 相关系数
定义:相关系数 \(\rho\) 是用来刻画两个随机变量之间线性相关关系强弱的一个数字特征,注意是线性关系。\(|\rho|\) 越接近 0,则说明两个随机变量越不线性相关;\(|\rho|\) 越接近 1,则说明两个随机变量越线性相关,定义式为
特别的:
- 若 \(0 < \rho < 1\),则称 X 与 Y 正相关
- 若 \(-1<\rho<0\),则称 X 与 Y 负相关
性质:
- 放缩性(由协方差性质5可得):\(|\rho| \le 1\)
- 独立性(由协方差性质4可得):若 X 与 Y 相互独立,则 \(p=0\);反之不一定成立
- 线性相关性(不予证明):\(|\rho|=1\) 的充分必要条件是存在常数 \(a(a\ne0),b\) 使得 \(P(Y=aX+b)=1\)
4.4.3 独立性与线性相关性(补)
一般的:对于两个随机变量 \(X\) 和 \(Y\)
- \(X\) 和 \(Y\) 相互独立 \(\rightarrow\) \(X\) 和 \(Y\) 线性无关(可以用线性相关的定义式结合协方差计算公式导出)
- \(X\) 和 \(Y\) 相互独立 \(\nleftarrow\) \(X\) 和 \(Y\) 线性无关(因为有可能出现 \(X\) 和 \(Y\) 非线性相关)
特别的:对于满足二维正态分布的随机变量 \(X\) 和 \(Y\),即 \((X,Y) \sim (\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\)
- \(X\) 和 \(Y\) 相互独立 \(\rightarrow\) \(X\) 和 \(Y\) 线性无关
- \(X\) 和 \(Y\) 相互独立 \(\leftarrow\) \(X\) 和 \(Y\) 线性无关
证明 - 二维正态分布的两个随机变量:相互独立 \(\iff\) 线性无关
5 大数定律与中心极限定理
本章只需要知道一个独立同分布中心极限定理即可,至于棣莫弗-拉普拉斯中心极限定理其实就是前者的 \(\{X_i\}_{i=1}^{\infty}\) 服从伯努利 \(n\) 重分布罢了。
独立同分布中心极限定理
定义:\(\{X_i\}_{i=1}^{\infty}\) 独立同分布且非零方差,其中 \(EX_i=\mu,DX_i=\sigma^2\),则有:
解释:其实就是对于独立同分布的随机事件 \(X_i\),在事件数 \(n\) 足够大时,就近似为正态分布(术语叫做依分布)。这样就可以很方便利用正态分布的性质计算当前事件的概率。至于棣莫弗-拉普拉斯中心极限定理就是上述 \(\mu=p,\sigma^2=p(1-p)\) 的特殊情况罢了
-
这个知识点教材没有提到,此处参考了 随机向量的数字特征 | 道客巴巴 - (www.doc88.com) 中的内容。 ↩