一、什么是假设检验?
1、基本理解
假设检验是统计学中的等于符号。
2、深入理解
在搜集数据之前,我们把想证明的结论写成备择假设(H1),把想拒绝的结论写成原假设(H0)。之所以写成这个形式,因为从上面不厌其烦的讨论中得知,这是方便统计推断的形式:当我们难以拒绝原假设时,只能得到结论,原假设也许是真的,现在还不能拒绝它;而当我们能够拒绝原假设时,结论是:它就很有把握是不真的。注意,在看到数据之前,我们不知道自己想证明的结论是否能够被证据所支持。
在确定假设检验的形式的同时,我们对之前一直随意说的 “把握”、“可能” 也做一个限定,即指定一个显著性水平 α (significance level),也叫犯第一类错误的概率(type I error,在硬币实验中,就是否定一个均匀硬币的错误,也叫 “弃真” 错误)。根据某些保守或稳健的原则(比如,我们认为,把一个无辜的人判决为有罪,比放掉一个有罪的人,后果更为严重),我们要尽量把犯 “弃真” 错误的概率控制在一个很小的水平里。
相应的,放掉一个有罪的人,即把一个有罪的人判为无罪,这犯的是第二类错误 β (type II error,在硬币实验中,就是把一个有偏的硬币当成均匀硬币的错误,也叫 “取伪” 错误)。在我们的假设检验里,我们认为犯一类错误的后果比犯第二类错误的后果更为严重。
3、P值
P 值就是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率。
(如果p值很小,说明原假设不为真)
二、假设检验的类型
1、参数检验(t 检验和 F 检验)
使用 t 检验和 F 检验的两个前提条件:1)总体服从正态分布;2)方差齐性
(1)正态性检验
A. 图示法
- 概率图
- 分位数图
B. 计算法
- 对偏度(skewness)和峰度(kurtosis)各用一个指标来评定,其中以矩法(method of moment),又称动差法,效率最高。
- 仅用一个指标来综合评定,其中以WW检验法和W′W′检验法效率最高,适用于样本含量少于100的资料;DD检验法效率也高,适用于样本含量nn为10~2000的资料。
(2)方差齐性检验
A. 两样本方差比较:F检验、Levene检验
B. 多样本方差比较:Bartlett检验、Levene检验、F检验
2、非参数检验(秩检验和卡方检验)
- 当总体分布不能由已知的数学形式表达,没有总体参数时,不能使用参数检验。
- 两个或多个正态总体方差不等时,不能对其总体均值进行 t 检验或 F 检验的参数检验。
对于这种情况,有两种解决办法:
- 一是可尝试变量变换使其满足参数检验条件,但不一定能成功;
- 二是使用非参数检验。对于等级数据,常使用非参数检验。
非参数检验对总体分布不作严格假定,又称任意分布检验。例如:秩检验和卡方检验。
三、常用的假设检验
1、t 检验/ student t 检验
(1)单样本 t 检验
单样本 t 检验确定样本均值是否与已知或假设的总体均值具有统计学差异。
单样本 t 检验是参数检验。
(2)双样本 t 检验
双样本 t 检验比较两个总体均值的差异,以确定是否有统计证据表明相关的总体均值存在显著差异。
(3)配对样本 t 检验
配对样本 t 检验也称为依赖样本 t 检验,这是一个单变量测试,测试某个变量在事件发生前后是否有显著性差异。
示例:
对于两个学习器 A 和 B,若使用 k 折交叉验证法得到的测试错误率分别为ϵ1A,ϵ2A,⋯,ϵkA和ϵ1B,ϵ2B,⋯,ϵkB,其中ϵiA和ϵiB是在相同的第 i 折训练/测试集上得到的结果。此时便可采用配对样本 t 检验对学习器 A 和 B 进行比较。
但是欲进行有效的假设检验,一个重要前提是测试错误率均为泛化错误率的独立采样。⚠️
在使用交叉验证等实验估计方法时,不同轮次的训练集会有一定程度的重叠,这就使得测试错误率实际上并不独立,会导致过高估计假设成立的概率。
为缓解这一问题,可采用“5×2交叉验证”法,即做5次2折交叉验证。
例如第 i 次2折交叉验证:
每一轮次的训练集没有重叠,互相独立。
2、Z 检验
在下列情况下,可以使用 Z 检验:
- 样本量大于30;
- 数据点彼此独立;
- 数据正态分布,但对于大样本,可以适当放宽;
- 数据是从总体中随机抽样的;
- 样本量相等
3、ANOVA 检验( F 检验)
t检验在处理两组时效果很好,但有时我们想要同时比较两组以上。例如,如果我们想根据种族等某些分类变量来测试选民年龄是否不同,我们必须比较每个级别的平均值或对变量进行分组。我们可以为每对组进行单独的t检验,但是当你进行多次检测时,你会增加误报的可能性。方差分析或ANOVA可让您同时比较多个组。
4、卡方检验
当您从单个总体中获得两个分类变量时,将应用此检验。它用于确定两个变量之间是否存在显着关联。