假设检验总结

2020-06-22 | 阅读：次

一、什么是假设检验？

1、基本理解

假设检验是统计学中的等于符号。

2、深入理解

在搜集数据之前，我们把想证明的结论写成备择假设（H1），把想拒绝的结论写成原假设（H0）。之所以写成这个形式，因为从上面不厌其烦的讨论中得知，这是方便统计推断的形式：当我们难以拒绝原假设时，只能得到结论，原假设也许是真的，现在还不能拒绝它；而当我们能够拒绝原假设时，结论是：它就很有把握是不真的。注意，在看到数据之前，我们不知道自己想证明的结论是否能够被证据所支持。

在确定假设检验的形式的同时，我们对之前一直随意说的 “把握”、“可能” 也做一个限定，即指定一个显著性水平 α (significance level)，也叫犯第一类错误的概率(type I error，在硬币实验中，就是否定一个均匀硬币的错误，也叫 “弃真” 错误)。根据某些保守或稳健的原则（比如，我们认为，把一个无辜的人判决为有罪，比放掉一个有罪的人，后果更为严重），我们要尽量把犯 “弃真” 错误的概率控制在一个很小的水平里。

相应的，放掉一个有罪的人，即把一个有罪的人判为无罪，这犯的是第二类错误 β (type II error，在硬币实验中，就是把一个有偏的硬币当成均匀硬币的错误，也叫 “取伪” 错误)。在我们的假设检验里，我们认为犯一类错误的后果比犯第二类错误的后果更为严重。

3、P值

P 值就是当原假设为真时，比所得到的样本观察结果更极端的结果出现的概率。

（如果p值很小，说明原假设不为真）

二、假设检验的类型

1、参数检验（t 检验和 F 检验）

使用 t 检验和 F 检验的两个前提条件：1）总体服从正态分布；2）方差齐性

（1）正态性检验

A. 图示法

概率图
分位数图

B. 计算法

对偏度（skewness）和峰度（kurtosis）各用一个指标来评定，其中以矩法（method of moment），又称动差法，效率最高。
仅用一个指标来综合评定，其中以WW检验法和W′W′检验法效率最高，适用于样本含量少于100的资料；DD检验法效率也高，适用于样本含量nn为10～2000的资料。

（2）方差齐性检验

A. 两样本方差比较：F检验、Levene检验

B. 多样本方差比较：Bartlett检验、Levene检验、F检验

2、非参数检验（秩检验和卡方检验）

当总体分布不能由已知的数学形式表达，没有总体参数时，不能使用参数检验。
两个或多个正态总体方差不等时，不能对其总体均值进行 t 检验或 F 检验的参数检验。

对于这种情况，有两种解决办法：

一是可尝试变量变换使其满足参数检验条件，但不一定能成功；
二是使用非参数检验。对于等级数据，常使用非参数检验。

非参数检验对总体分布不作严格假定，又称任意分布检验。例如：秩检验和卡方检验。

三、常用的假设检验

1、t 检验/ student t 检验

（1）单样本 t 检验

单样本 t 检验确定样本均值是否与已知或假设的总体均值具有统计学差异。

单样本 t 检验是参数检验。

（2）双样本 t 检验

双样本 t 检验比较两个总体均值的差异，以确定是否有统计证据表明相关的总体均值存在显著差异。

（3）配对样本 t 检验

配对样本 t 检验也称为依赖样本 t 检验，这是一个单变量测试，测试某个变量在事件发生前后是否有显著性差异。

示例：

对于两个学习器 A 和 B，若使用 k 折交叉验证法得到的测试错误率分别为ϵ1A,ϵ2A,⋯,ϵkA和ϵ1B,ϵ2B,⋯,ϵkB，其中ϵiA和ϵiB是在相同的第 i 折训练/测试集上得到的结果。此时便可采用配对样本 t 检验对学习器 A 和 B 进行比较。

但是欲进行有效的假设检验，一个重要前提是测试错误率均为泛化错误率的独立采样。⚠️

在使用交叉验证等实验估计方法时，不同轮次的训练集会有一定程度的重叠，这就使得测试错误率实际上并不独立，会导致过高估计假设成立的概率。

为缓解这一问题，可采用“5×2交叉验证”法，即做5次2折交叉验证。

例如第 i 次2折交叉验证：

drawio

每一轮次的训练集没有重叠，互相独立。

2、Z 检验

在下列情况下，可以使用 Z 检验：

样本量大于30；
数据点彼此独立；
数据正态分布，但对于大样本，可以适当放宽；
数据是从总体中随机抽样的；
样本量相等

3、ANOVA 检验（ F 检验）

t检验在处理两组时效果很好，但有时我们想要同时比较两组以上。例如，如果我们想根据种族等某些分类变量来测试选民年龄是否不同，我们必须比较每个级别的平均值或对变量进行分组。我们可以为每对组进行单独的t检验，但是当你进行多次检测时，你会增加误报的可能性。方差分析或ANOVA可让您同时比较多个组。

4、卡方检验

当您从单个总体中获得两个分类变量时，将应用此检验。它用于确定两个变量之间是否存在显着关联。

Liming96

齐刘海的小柴