数理统计

本文介绍数理统计相关知识。

基本概念¶

简单随机样本¶

我们记全体随机变量为总体 \(\mathbf X\)，其中的一个随机变量为样本 \(X_i\)。在这里我们只研究简单随机样本，即 \(\mathbf X=(X_1,X_2,...,X_n)\) 相互独立且分布相同。

同样记随机变量 \(X_i\) 取 \(x_i\) 时的分布函数为 \(F(x_i)\)，密度函数为 \(p(x_i)\)，由于随机变量之间满足独立同分布，因此有：

\[ \begin{aligned} F(x_1, x_2,..., x_n)&= F(x_1) \cdot F(x_2) \cdots F(x_n)\\ p(x_1, x_2,..., x_n)&= p(x_1) \cdot p(x_2) \cdots p(x_n) \end{aligned} \]

统计量¶

统计量定义为关于样本的表达式，仅仅针对随机变量为确定值的情况，不包含未知量。有以下几种常见的统计量：

样本均值：

\[ \overline{X} = \frac{1}{n} \sum_{i = 1}^n X_i \]

样本方差：

\[ S_0^2 = \frac{1}{n} \sum_{i = 1}^n (X_i - \overline{X})^2 = \frac{1}{n}\sum_{i = 1}^n X_i^2 - \overline{X}^2 \]

样本标准差：

\[ S_0 = \sqrt{S_0^2} \]

修正样本方差：

\[ S^2 = \frac{1}{n-1} \sum_{i = 1}^n (X_i - \overline{X})^2 \]

推导

设总体 \(X\) 的数学期望和方差分别为 \(\mu\) 和 \(\sigma^2\)，\((X_1,X_2,...,X_n)\) 是简单随机样本，则：即：样本均值的数学期望 \(=\) 总体的数学期望即：样本方差的数学期望 \(\ne\) 总体的数学期望上图即：修正样本方差推导

修正样本标准差：

\[ S = \sqrt{S^2} \]

样本 \(k\) 阶原点矩：

\[ A_k = \frac{1}{n} \sum_{i = 1}^n X_i^k,\quad k = 1,2,\cdots \]

样本 \(k\) 阶中心矩：

\[ B_k = \frac{1}{n} \sum_{i = 1}^n (X_i-\overline{X})^k,\quad k = 2,3,\cdots \]

其他样本统计量还包括：序列最小值、序列最大值、极差（序列最大值 - 序列最小值）等。

中心极限定理¶

约三百年前，人们发现很多东西都服从正态分布，于是就有数学家开始研究背后的理论证明，并统一称为”中心极限定理“，其可以感性的理解为「关于大量微小的随机变量之和的极限分布」的定理。由于独立同分布中心极限定理一统了曾经所有的研究，下面就重点介绍这个定理。

独立同分布中心极限定理：若 \(\{X_i\}_{i=1}^{\infty}\) 独立同分布且具有非零方差，并满足 \(EX_i=\mu,DX_i=\sigma^2\)，则有：

\[ \begin{aligned} \sum_{i = 1}^n X_i &\sim N(\sum_{i = 1}^n(EX_i),\sum_{i = 1}^n(DX_i)) \\ &\sim N(n\mu, n\sigma^2) \end{aligned} \]

棣莫弗-拉普拉斯积分极限定理：即上述 \(\mu=p,\sigma^2=p(1-p)\) 的特殊情况，此时 \(\{X_i\}_{i=1}^{\infty}\) 服从 \(n\) 重伯努利分布。

有了独立同分布中心极限定理，就可以利用正态分布优雅的数学性质解决现实中很多可以建模为正态分布的问题了。

三大分布¶

时刻牢记一句话：构造性定义！

分位数：

我们定义实数 \(\lambda_\alpha\) 为随机变量 \(X\) 的上侧 \(\alpha\) 分位数（点）当且仅当 \(P(X > \lambda_\alpha) = \alpha\)
我们定义实数 \(\lambda_{1-\beta}\) 为随机变量 \(X\) 的下侧 \(\beta\) 分位数（点）当且仅当 \(P(X < \lambda_{1-\beta})=\beta\)

\(\chi^2\) 分布：

密度函数图像：

定义：

对于 \(n\) 个独立同分布的标准正态随机变量 \(X_1,X_2,\cdots ,X_n\)，若 \(Y = X_1^2 + X_2^2 + \cdots + X_n^2\)
则 \(Y\) 服从自由度为 \(n\) 的 \(\chi^2\) 分布，记作：\(Y \sim \chi^2(n)\)

性质：

可加性：若 \(Y_1 \sim \chi^2(n_1), Y_2 \sim \chi^2(n_2)\) 且 \(Y_1,Y_2\) 相互独立，则 \(Y_1+Y_2 \sim \chi^2(n_1+n_2)\)
统计性：对于 \(Y \sim \chi^2(n)\)，有 \(EY = n, DY = 2n\)

推导

EY 的推导利用：\(EX^2 = DX - (EX)^2\) DY 的推导利用：方差计算公式、随机变量函数的数学期望进行计算

\(t\) 分布：

密度函数图像：

定义：

若随机变量 \(X \sim N(0, 1),Y \sim \chi^2 (n)\) 且 \(X,Y\) 相互独立
则称随机变量 \(T = \displaystyle \frac{X}{\sqrt{Y/n}}\) 为服从自由度为 \(n\) 的 \(t\) 分布，记作 \(T \sim t(n)\)

性质：

密度函数是偶函数，具备对称性

\(F\) 分布：

密度函数图像：

定义：

若随机变量 \(X \sim \chi^2(m), Y \sim \chi^2(n)\) 且相互独立
则称随机变量 \(G=\displaystyle \frac{X/m}{Y/n}\) 服从自由度为 \((m,n)\) 的 \(F\) 分布，记作 \(G \sim F(m, n)\)

性质：

倒数自由度转换：\(\displaystyle \frac{1}{G} \sim F(n, m)\)
三变性质：\(\displaystyle F_{1-\alpha}(m, n) = \left [F_\alpha (n, m)\right]^{-1}\)

正态总体抽样分布定理¶

设 \(X_1,X_2,\cdots ,X_n\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的简单随机样本，\(\overline{X},S^2\) 分别是样本均值和修正样本方差。则 \(\overline{X}\) 和 \(S^2\) 相互独立，且有：

\[ \begin{aligned} \overline{X} &\sim N(\mu, \frac{\sigma^2}{n})\\ \frac{(n-1)S^2}{\sigma^2} &\sim \chi^2(n-1)\\ \frac{\sqrt{n}(\overline{X} - \mu)}{S} &\sim t(n-1) \end{aligned} \]

参数估计¶

有些时候我们知道数据的分布，但是不清楚表达式中的某些参数，这就需要我们利用「已有的样本」对分布表达式中的参数进行估计。

点估计¶

所谓点估计策略，就是直接给出参数的一个估计值。本目我们介绍点估计策略中的两个方法：矩估计法、极大似然估计法。

矩估计法。用样本的原点矩 \(A_k\) 来代替总体 \(E(X^k)\)，\(k\) 个未知参数就需要用到 \(k\) 个原点矩：

\[ E(X^k) = A_k = \frac{1}{n}\sum_{i = 1}^nX_i^k \]

极大似然估计法。在当前样本数据的局面下，我们希望找到合适的参数使得当前的样本分布情况发生的概率最大。由于各样本相互独立，因此我们可以用连乘的概率公式来计算当前局面的概率值：

\[ L(\theta; x_1, x_2,\cdots, x_n) \]

上述 \(L(\theta;x_1,x_2,\cdots,x_n)\) 即似然函数，目标就是选择适当的参数 \(\theta\) 来最大化似然函数。无论是离散性还是连续型，都可以采用下面的方式来计算极大似然估计：

写出似然函数 \(L(\theta)\)；
将上述似然函数取对数；
求对数似然函数关于所有未知参数的偏导并计算极值点；
解出参数关于样本统计量的表达式。

离散型随机变量的似然函数表达式

\[ L(\theta) = \prod_{i = 1}^n p(x_i;\theta) = \prod_{i = 1}^n P(X_i = x_i) \]

连续型随机变量的似然函数表达式

\[ L(\theta) = \prod_{i = 1}^n p(x_i;\theta) \]

可以看出极大似然估计本质上就是一个多元函数求极值的问题。特别地，当我们没法得到参数关于样本统计量的表达式 \(L(\theta)\) 时，可以直接从定义域、原函数恒增或恒减等角度出发求解这个多元函数的极值。

点估计的评价。如何衡量不同的点估计方法好坏？我们引入三种点估计量的评价指标：无偏性、有效性、一致性。其中一致性一笔带过，不做详细讨论。注意：参数的估计量 \(\theta\) 是关于样本的统计量，因此可以对其进行求期望、方差等操作。

无偏性。顾名思义，就是希望估计出来的参数量尽可能不偏离真实值。我们定义满足下式的估计量 \(\hat \theta\) 为真实参数的无偏估计：

\[ E\hat \theta =\theta \]
有效性。者是基于比较的定义方法。对于两个无偏估计 \(\hat\theta_1,\hat\theta_2\)，谁的方差越小谁就越有效。即若 \(D(\hat\theta_1),D(\hat\theta_2)\) 满足下式，则称 \(\hat\theta_1\) 更有效：

\[ D(\hat\theta_1) < D(\hat\theta_2) \]
一致性。即当样本容量 \(n\) 趋近于无穷时，参数的估计值也能趋近于真实值，则称该估计量 \(\hat\theta\) 为 \(\theta\) 的一致估计量。

区间估计¶

由于点估计只能进行比较，无法对单一估计进行性能度量，因此引入区间估计策略。区间估计顾名思义会有一个对参数估计的区间，这个区间越长，估计的可靠程度就越高，同时精确程度就越低。

区间估计的常用方法叫做主元法，其核心逻辑如下：

在已知数据总体分布的情况下，构造一个关于样本 \(X\) 和待估参数 \(\theta\) 的函数 \(Z(X,\theta)\)；
然后利用置信度和总体分布函数，通过查表得到 \(Z(X,\theta)\) 的取值范围；
最后通过移项变形得到待估参数的区间，也就是估计区间。

知道了区间估计的一般方法后，接下来我们就将该方法应用在一个总体服从正态分布的情况。这种情况下的区间估计分为三种，其中估计均值 \(\mu\) 有 2 种，估计方差 \(\sigma^2\) 有 1 种。估计的逻辑我总结为了以下三步：

构造主元 \(Z(X,\theta)\)；
利用置信度 \(1-\alpha\) 计算主元 \(Z\) 的取值范围；
对主元 \(Z\) 的取值范围移项得到参数 \(\theta\) 的取值范围。

为了提升区间估计的可信度，我们希望上述第 2 步计算出来的关于主元的取值范围尽可能准确。我们不加证明的给出以下结论：取主元的取值范围为主元服从的分布的上下 \(\frac{\alpha}{2}\) 分位数之间。

情况一：求 \(\mu\) 的置信区间，\(\sigma^2\) 已知。步骤如下：

构造主元 \(Z(X,\theta)\)：

\[ Z = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \sim N(0,1) \]

利用置信度 \(1-\alpha\) 计算主元 \(Z\) 的取值范围：

\[ \begin{aligned} P(|Z| \le \lambda) &= 1-\alpha \\ &\downarrow\\ Z \in [-\lambda,\lambda] &= [-u_{\frac{\alpha}{2}}, u_\frac{\alpha}{2}] \end{aligned} \]

对主元 \(Z\) 的取值范围移项得到参数 \(\theta\) 的取值范围：

\[ \overline{X} - \frac{\sigma}{\sqrt{n}} u_\frac{\alpha}{2} \le \mu \le \overline{X} + \frac{\sigma}{\sqrt{n}} u_\frac{\alpha}{2} \]

情况二：求 \(\mu\) 的置信区间，\(\sigma^2\) 未知。步骤如下：

构造主元 \(Z(X,\theta)\)：

\[ Z = \frac{\overline{X} - \mu}{S / \sqrt{n}} \sim t(n-1) \]

利用置信度 \(1-\alpha\) 计算主元 \(Z\) 的取值范围：

\[ \begin{aligned} P(|Z| \le \lambda) &= 1-\alpha \\ &\downarrow\\ Z \in [-\lambda,\lambda] &= [-t_{\frac{\alpha}{2}}(n-1), t_\frac{\alpha}{2}(n-1)] \end{aligned} \]

对主元 \(Z\) 的取值范围移项得到参数 \(\theta\) 的取值范围：

\[ \overline{X} - \frac{S}{\sqrt{n}} t_\frac{\alpha}{2}(n-1) \le \mu \le \overline{X} + \frac{S}{\sqrt{n}} t_\frac{\alpha}{2}(n-1) \]

情况三：求 \(\sigma^2\) 的置信区间（构造的主元与总体均值无关，因此不需要考虑 \(\mu\) 的情况）。步骤如下：

构造主元 \(Z(X,\theta)\)：

\[ Z = \frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) \]

利用置信度 \(1-\alpha\) 计算主元 \(Z\) 的取值范围：

\[ \begin{aligned} P(\lambda_1 \le Z \le \lambda_2) &= 1-\alpha \\ &\downarrow\\ Z \in [\lambda_1,\lambda_2] &= [\chi^2_{1-\frac{\alpha}{2}}(n-1),\chi^2_\frac{\alpha}{2}(n-1)] \end{aligned} \]

对主元 \(Z\) 的取值范围移项得到参数 \(\theta\) 的取值范围：

\[ \frac{(n-1)S^2}{\chi^2_\frac{\alpha}{2}(n-1)} \le \sigma^2 \le \frac{(n-1)S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)} \]

假设检验¶

参数估计是在总体分布已知且未知分布表达式中某些参数的情况下，基于抽取的少量样本进行的。

现在的局面同样，但任务变成了：需要利用抽取的少量样本判断样本所在的空间是否符合某种性质。我们主要讨论「单个正态总体」的情况并针对均值和方差两个参数进行假设和检验，即假设均值/方差满足某种趋势，利用已知数据判断假设是否成立。

假设检验的基本概念¶

基本思想：首先做出假设并构造一个关于样本观察值和已知参数的检验统计量，接着计算假设发生的情况下小概率事件发生时该检验统计量的取值范围（拒绝域），最终代入已知样本数据判断计算结果是否在拒绝域内。如果在，则说明在当前假设的情况下小概率事件发生了，对应的假设为假；反之说明假设为真。

为了量化「小概率事件发生」这个指标，我们引入显著性水平 \(\alpha\) 这一概念。该参数为一个很小的正数，定义为「小概率事件发生」的概率上界。

基于数据的实验导致我们无法避免错误，因此我们定义以下两类错误：

第一类错误：弃真错误。即假设正确，但由于数据采样不合理导致拒绝了真实的假设；
第二类错误：存伪错误。即假设错误，同样因为数据的不合理导致接受了错误的假设。

单个正态总体均值的假设检验¶

设 \(X_1,X_2,\cdots ,X_n\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的简单随机样本。后续进行假设判定计算统计量 \(Z\) 的真实值时，若总体均值 \(\mu\) 已知就直接代入，若未知题目也一定会给一个阈值，代这个阈值即可。

当总体方差 \(\sigma^2\) 已知时，我们构造样本统计量 \(Z\) 为正态分布：

\[ Z = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \sim N(0,1) \]

检验是否则求解双侧 \(\alpha\) 分位数
检验单边则求解单侧 \(\alpha\) 分位数

当总体方差 \(\sigma^2\) 未知时，我们构造样本统计量 \(Z\) 为 \(t\) 分布：

\[ Z = \frac{\overline{X} - \mu}{S / \sqrt{n}} \sim t(n-1) \]

Warning

之所以这样构造是因为当总体 \(\sigma\) 未知时，上一个方法构造的主元已经不再是统计量，我们需要找到能够代替未知参数 \(\sigma\) 的变量，这里就采用其无偏估计「修正样本方差 \(S^2\)」来代替 \(\sigma^2\)。也是说直接拿样本的修正方差来代替总体的方差了。

检验是否则求解双侧 \(\alpha\) 分位数
检验单边则求解单侧 \(\alpha\) 分位数

单个正态总体方差的假设检验¶

设 \(X_1,X_2,\cdots ,X_n\) 是来自正态总体 \(N(\mu, \sigma^2)\) 的简单随机样本。后续进行假设判定计算统计量 \(Z\) 的真实值时，若总体方差 \(\sigma^2\) 已知就直接代入，若未知题目也一定会给一个阈值，代这个阈值即可。

我们直接构造样本统计量 \(Z\) 为 \(\chi^2\) 分布：

\[ Z = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) \]

检验是否则求解双侧 \(\alpha\) 分位数
检验单边则求解单侧 \(\alpha\) 分位数