本
文
摘
要
“一旦你排除一切的不可能,剩下的不管多么难以置信,一定就是真相!”——《神探夏洛克》
统计分析实验中,通过假设检验可以为假设推断提供有力的证据支撑。
文章大纲:
假设检验的逻辑基本概念辨析假设检验的基本步骤总结假设检验的逻辑假设检验的逻辑是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。
基于小概率事件和反证思维。
即先随着统计问题的建立,可以引申出对应的原假设和备选假设,再用适当的统计方法,利用小概率原理,确定原假设是否成立。
具体来讲,首先假定该原假设正确,然后根据样本对原假设做出接受或拒绝的决策。如果样本观察值导致了“小概率事件”发生,就应拒绝原假设(接受备选假设),否则应接受原假设。
2. 基本概念辨析
通过假设检验,一方面验证假设是否成立,另一方面,还应在假设通过基础上求出对应的置信区间,体现推断统计的相对严谨。
2.1 置信区间(Confidence intervals)
是指由样本统计量所构造的总体参数的估计区间。即描述抽样估计的准确程度,能够被认可的误差范围。
2.2 置信水平(Confidence level)
即置信区间的可信水平(程度)。
2.3 显著水平(significance level)
是估计总体参数落在某一区间内,可能犯错误的概率,用α表示。
显著性水平=1-置信水平
2.4 样本量(sample size)
每组样本所含样本量的数量即为样本量,样本量的大小直接影响假设检验中采取的分布和估计结果的可靠性(置信区间)。
一般来讲样本量小于30即为小样本,大于等于30则可视为大样本。
如图所示,当样本量大于等于30时,无论总体服从何种分布,样本均满足中心极限定理(正态分布);而当样本量小于30时,只有在总体分布近似于正态分布时,样本分布才满足t分布,否则为其他分布(此处,不过多涉及)。
2.5 置信区间与置信水平、样本量的关系
在置信水平固定的情况下,样本量越多,置信区间越窄。
在样本量相同的情况下,置信水平越高,置信区间越宽。
2.6 置信区间的确定(与置信水平、显著性水平)
通常在显著性水平α已知的情况下,置信水平=100(1-α)%。
对于一组给定的样本数据,其平均值为μ,标准偏差为σ,则其整体数据的平均值的100(1-α)%置信区间为(μ-Ζ*SE , μ+Ζ*SE) ,其中μ为样本均值,α为非置信水平在正态分布内的覆盖面积 ,Ζ即为对应的标准分。
根据中心极限定理的数据分布规律,通常假定α=5%。
2.7 t 检验
亦称student t检验(Students t test),主要用于样本含量较小(例如n<30),正态分布的总体标准差σ未知的情况下适用。
适用条件:
(1) 已知一个总体均数;
(2) 可得到一个样本均数及该样本标准差;
(3) 样本来自正态或近似正态总体。
计算:
单样本检验下的t值检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。
其中,
为样本平均数,
为样本标准偏差,n为样本数。
相关配对 t 值检验匹配而成的两组被试获得的数据或同组被试在不同条件下所获得的数据的差异性。
其中,
配对样本x1i与x2i之差为di=x1i−x2i
为配对样本差值之平均数,
为配对样本差值之标准偏差,n为配对样本数。
独立双样本 t 值检验两组非相关样本被试所获得的数据的差异性。
S1^2和 S2^2为两样本方差;n1 和n2 为两样本容量。
该统计量 t 在零假设:μ=μ0为真时,服从自由度为n−1的t分布。
根据自由度、检验方向和显著性水平可以通过 t 值表查出对应的 t 值。
注意:在求取P值进行假设检验判断时,通常将显著性水平换算成t值,而正态分布中的 z 表查询得到是P值直接跟显著性水平比较。
3. 假设检验的基本步骤
3.1 明确问题
确定假设需要讨论的原假设与备选假设;
确定当前的检验类型根据数据集的特征和问题所指,确定当前的检验类型是适合当样本均值与标准值比较的单样本检验,还是适合相关或配对观测之差的均值与标准值比较的相关配对检验,或是两个独立样本均值之差与标准值比较的独立双样本检验;
确定抽样分布的类型根据样本量的大小和总体的分布情况(n<30时需要参考)确定,利用seaborn高级绘图包实现数据集拟合分布绘制:
import matplotlib.pyplot as plt import seaborn as sns sns.distplot() plt.title(数据集分布) plt.show()若样本量小于30且数据分布类似于正态分布,则可以确定抽样分布的类型为t分布,若样本量大于等于30,则可确定为正态分布。
借助Seaborn,给数据一个更精确的拟合曲线(专业术语叫:核密度估计kernel density estimate (KDE)),Seaborn 可以很方便的画出直方图和拟合曲线。
确定检验方向根据问题中样本均值与目标值之间的内在逻辑关系,确定检验方向是双侧还是单侧,单侧需进一步确定是左侧还是右侧。
具体来讲,主要参考备选假设:
(1)备选假设中含有≠号,为双侧检验
(2)备选假设中含有>号,则为右侧检验
(3)备选假设中含有<号,则为左侧检验
3.2 寻找证据——P值或间接t值
P为零假设成立情况下,得到样本均值的概率。
P值的获取主要根据上一步中明确的抽样分布和检验方向,查Z表或间接通过t表得出。
t分布在求取P值进行假设检验判断时,通常将显著性水平换算成 t 值,或者通过软件、网址查询出P值。
而正态分布中的 Z表查询得到是P值直接跟显著性水平比较。
已知t值求取P值(1)标准化t值+t表格+插值法(积分)
标准化t值——t(标)=(样本均值-总体均值)/SE
将t(标)带入t表格结合插值法 计算积分就可求出p值。
以双侧检验为例,理论如下图1所示:
图1 已知t值求P值(2)EXCEL函数TDIST
图片来源于百度其中X是用来计算t分布的值,则在此处输入已知的T值;Deg_freedom项填的是已知的自由度;Tails指定返回的分布函数是单边还是双边分布,单边分布=1,双边分布=2。
注:TTEST函数则是用于求取t值。
(3)通过网址快速查找
P value calculator:
P value calculatorwww.graphpad.com/quickcalcs/pValue1/(4)借助python统计包scipy
具体方式,将在下一篇案例文章中详细展开。
3.3 判断标准——显著性水平α或间接t值
规定一个显著性水平(影响置信区间)通常是5%与证据P值进行比较;
或该显著性水平的对应t值与证据中的t值进行比较。
3.4结论
根据检验方向、证据和我判断标准可以得到最终的结论,如表1所示:
表1 判断标准注意:用t值比较时的绝对值符号。
其中,Z表示标准分后的z值,t值由t表格得出,Z表格可得出P值,t值对应P值需要进一步转化。
3.5 置信区间(CI)
在得出结论基础上,可以得到该结论的可信程度,即置信区间——(μ-Ζ*SE , μ+Ζ*SE) 或 (μ-t*SE , μ+t*SE)。
确定置信可进一步确定以下参数:
样本均值根据假设检验类型不同,计算有变化,特别是相关配对检验中是差值的样本均值。
Z标准分:进一步分解为样本均值与样本标准差。
t表所得t值标准误差SE:SE = 样本标准差/(样本量^0.5)
(1)样本标准差
(2)样本量
不同假设检验对应的SE有差异:
3.6 显著程度——效应量(effect size)
在结论统计显著情况下,进一步确定显著的程度,引入效应量指标,如下图所示:
在独立双样本检验中需注意,标准差对应合并标准差。
3.7 报告格式——PAP
完成上述分析,进行书面描写报告时,采用PAP格式。
抽样分布t分布t(df) = X.XX,p = .XX(α=.XX),检验方向
置信区间CI置信区间类型,置信水平 CI=(a,b)
4. 总结