假设检验 Hypothesis Testing
假设检验(Hypothesis Testing)是统计推断的一类重要问题。
在总体的分布函数完全未知或只知其形式,但不知其参数的情况下,为了推断总体的某些未知特性,提出关于总体的假设。然后,根据少量样本的观测情况,对所提出的假设作出是接受,还是拒绝的决策。
比如,我们可以提出总体服从泊松分布的假设,然后根据实际样本接受这个假设,或推翻拒绝这个假设。
比如,我们也可以对正态分布的总体提出数学期望等于\(\mu_0\)的假设,然后根据实际样本,接受或拒绝这个假设。在统计推断时,我们会提出两个相互对立的假设,分别是原假设/零假设(Null Hypothesis)和备择假设(Alternative Hypothesis)。备择假设意味着,在原假设被拒绝后可供选择的假设。
以包装机包装为例,每袋包装的重量是个随机变量,它服从正态分布。当机器正常时,均值为0.5公斤,标准差为0.015公斤。某日开工后,为了检验包装机是否工作正常,随机抽取它所包装的产品 9 袋,称得重量为:
0.497 | 0.506 | 0.518 | 0.524 | 0.498 | 0.511 | 0.520 | 0.515 | 0.512 |
请问这一天机器是否正常工作?
以\(\mu\)和 \(\sigma\) 分别表示这一天产品包装重量的总体\(X\)的均值( mean )和标准差(standard deviation)。一般标准差比较稳定,所以可以假设 \(\sigma = 0.015\) 。于是\(X \sim N(\mu, 0.015^2)\)。这里\(\mu\)未知,问题是根据样本判断\(\mu = 0.5\)还是\(\mu \neq 0.5\)。
于是,我们可以提出两个相互对立的假设:
\[H_0: \mu = \mu_0 = 0.5\]
\[H_1: \mu \neq \mu_0\]
因为\(\bar{X}\)是 \(\mu\) 的无偏估计,\(\bar{X}\)的观察值 \(\bar{x}\) 的大小在一定程度上反映\(\mu\)的大小。无偏估计(unbiased estimation)是用统计样本量来估计总体参数的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此估计量为被估计参数的无偏估计。
如果假设\(H_0\)为真,则观察值\(\bar{x}\)与 \(\mu_0\) 的偏差 \(|\bar{x} - \mu_0|\) 一般不应太大。若\(|\bar{x} - \mu_0|\)过分大,我们就可以怀疑假设\(H_0\)的正确性,而拒绝\(H_0\)。
考虑到\(H_0\)为真时,\(\bar{X} \sim N(\mu_0, \sigma)\) ,于是 \(\frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}} \sim N(0, 1)\)。而衡量 \(|\bar{x} - \mu_0|\) 的大小,就可归结为衡量 \(\frac{|\bar{x} - \mu_0|}{\sigma / \sqrt{n}}\) 的大小。
这样,我们就可以选定一个较小的正数 \(k\),使得,当观察值 \(\bar{x}\) 满足\(\frac{|\bar{x} - \mu_0|}{\sigma / \sqrt{n}} \geq k\)时,就拒绝假设 \(H_0\),反之,若 \(\frac{|\bar{x} - \mu_0|}{\sigma / \sqrt{n}} < k\) ,就接受假设 \(H_0\)。
然而,对于不同的样本,相同的\(k\)取值,也会得到不同的拒绝\(H_0\)的概率。这样就没有参考意义。所以,需要控制当\(H_0\)为真时,拒绝 \(H_0\) 的概率的大小。假设一个值\(\alpha (0 < \alpha < 1)\),使得犯这种错的概率在可接受范围内。
\[ P\{\text{当} H_0 \text{为真时,拒绝} H_0\} \leq \alpha \]
因为\(P\)的最大取值为 \(\alpha\),所以得到:
\[ P\{\text{当} H_0 \text{为真时,拒绝} H_0\} = P_{\mu_0} \{ \frac{|\bar{x} - \mu_0|}{\sigma / \sqrt{n}} \geq k \} = \alpha \]
由于当\(H_0\)为真时,\(Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}} \sim N(0, 1)\)。得出,使 \(P_{\mu_0} \{ \frac{|\bar{x} - \mu_0|}{\sigma / \sqrt{n}} \geq k \} = \alpha\) 成立的\(k\)值为 \(z_{\alpha/2}\) 。
因此,若\(Z\)观察值满足 \[|z| = \frac{|\bar{x} - \mu_0|}{\sigma / \sqrt{n}} \geq k = z_{\alpha/2}\] ,则拒绝 \(H_0\)。
而 \[|z| = \frac{|\bar{x} - \mu_0|}{\sigma / \sqrt{n}} < k = z_{\alpha/2}\] ,则接受\(H_0\)。
回到本例子,\(\alpha = 0.05\) ,则有 \(k=z_{0.05/2} = z_{0.025} = 1.96\),又已知\(n = 9, \mu_0 = 0.5, \sigma = 0.015, \bar{x} = 0.511\)即有:
\[|\frac{\bar{x}-\mu_0}{\sigma /\sqrt{n}}| = |\frac{0.511 - 0.5}{0.015/\sqrt{9}}| = |\frac{0.011}{0.005}| = 2.2 > 1.96 \]
于是,拒绝 \(H_0\)。所以可以认为这一天包装机器工作不正常。
在 \[|z| = \frac{|\bar{x} - \mu_0|}{\sigma / \sqrt{n}} < k = z_{\alpha/2}\] 中,我们称数\(\alpha\)为 显著性水平(significance level) 。关于\(\bar{x}\)与 \(\mu_0\) 有无显著性差异的判断是在显著性水平\(\alpha\)下作出的。
于是,假设验证问题可以这样表述:在显著性水平\(\alpha\)下,检验假设
\[H_0 : \mu = \mu_0, ~~ H_1 : \mu \neq \mu_0\]
If our data produce values that meet or exceed the significance level \(\alpha\), then we have sufficient evidence to reject the null hypothesis \(H_0\); if not, we fail to reject the null.
拒绝原假设\(H_0\)的区域成为 拒绝域(rejection region/critical region) ,拒绝域的边界点称为临界点( threshold )。备择条件\(H_1: \mu \neq \mu_0\) ,\(\mu\)可能大于\(\mu_0\)也可能小于\(\mu_0\)。所以称为双边备择假设。而这样的假设验证称为双边假设验证。
接下来,我们用 R 的 z.test
函数来进行假设验证测试。
首先,我们用直方图看看样本观察值:
library(rcompanion) data <- c(0.497, 0.506, 0.518, 0.524, 0.498, 0.511, 0.520, 0.515, 0.512) plotNormalHistogram(data)
正态概率图(Normal Quantile-Quantile Plot):
library(rcompanion) data <- c(0.497, 0.506, 0.518, 0.524, 0.498, 0.511, 0.520, 0.515, 0.512) qqnorm(data) qqline(data, col="red")
调用z.test
进行假设验证测试:
library("BSDA") data <- c(0.497, 0.506, 0.518, 0.524, 0.498, 0.511, 0.520, 0.515, 0.512) z.test(x = data, alternative = "two.sided", mu = 0.5, sigma.x = 0.015, conf.level = 0.95)
One-sample z-Test data: data z = 2.2444, p-value = 0.0248 alternative hypothesis: true mean is not equal to 0.5 95 percent confidence interval: 0.5014224 0.5210220 sample estimates: mean of x 0.5112222
从结果来看,
\[|z| = |\frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}| = 2.2444\]
p值( p-value )为 0.0248。 p 值是根据实际观察值计算出来的显著性水平。
因为
\[ P\{\text{当} H_0 \text{为真时,拒绝} H_0\} = P_{\mu_0} \{ \frac{|\bar{x} - \mu_0|}{\sigma / \sqrt{n}} \geq k \} = \alpha \]
所以,当 p 值越小,表示表示“当原假设为真时,拒绝该假设的概率越小。一般以小于 p 值小于 0.05为拒绝原假设的普遍标准。