显著性⽔平究竟是何⽅神圣?
⽤数据来证明意味着什么?
我眼中的冬天作文如果你作为⼀所重点⼤学的院长,收到⼀份令⼈担忧的报告,显⽰学⽣每晚平均睡眠时间6.80⼩时,⽽全国⼤学⽣的平均睡眠时间为7.02⼩时。学⽣会主席担⼼学⽣的健康,并指出这项研究证明家庭作业必须减少。另⼀⽅⾯,⼤学校长则认为这项研究是⽆稽之谈: “在我那个年代,每晚只睡四个⼩时,并认为⾃⼰很幸运。” 你必须决定这是否是⼀个严重的问题。幸运的是,你⾮常精通统计学,并最终看到了⼀个将你的教育⽤于实践的机会!
统计显著性是经常听到但可能没有真正理解的术语之⼀。当有⼈声称数据证明了他的观点,我们点头并接受它时,其实已经假设统计学家做了复杂的操作,产⽣了不容置疑的结果。事实上,统计显著性并不是⼀个需要多年研究才能掌握的复杂现象,⽽是⼀个每个⼈都能够实现⽽且应该理解的简单概念。与⼤多数技术概念⼀样,统计显著性建⽴在⼏个简单的概念之上: 假设检验、正态分布和p 值。本⽂将简要介绍这些概念(并提供进⼀步的资源),以解决上述难题。
. . .
我们要讨论的第⼀个问题是假设检验,⼀种利⽤数据评估理论的技术。“假设”是指研究者对研究前情境的最初猜想。这个最初的理论被称为备择假设,⽽相反的理论被称为零假设。
在我们的例⼦中,理解为:
·备择假设:本⼤学学⽣的平均睡眠时间低于全国⼤学⽣的平均睡眠时间
·零假设:本⼤学学⽣的平均睡眠时间不低于全国⼤学⽣的平均睡眠时间
假设检验是统计学的基础之⼀,⽤来评估⼤多数研究的结果。这可以使任何研究,从评估药物有效性的医学试验到评估运动计划的观察性研究。所有的研究都有⼀个共同点,那就是都关注于⽐较,⽆论是在两个群体之间,还是在⼀个群体和整个⼈⼝之间。在医学试验的例⼦中,可能会⽐较服⽤两种不
同药物的平均恢复时间,或者在以上睡眠问题中,想⽐较本校学⽣和全国所有学⽣的睡眠。
假设检验的检验部分使我们能够确定哪种假设,零假设或备择假设,能得到证据更好地⽀持。在许多假设检验中,会使⽤⼀个称为 z-检验的⽅法。但是,在开始测试数据之前,需要讨论两个更重要的想法。
. . .
了解统计学显著性的第⼆个问题是正态分布,也称为⾼斯或钟形曲线。正态分布是⽤来表⽰数据是如何分布的,⽤均值µ(mu)和标准差σ(sigma)来定
把握节奏义。均值表⽰数据中⼼的位置,标准差表⽰数据的离散程度。
正态分布的应⽤来⾃于对数据点标准差的评估。可以根据⼀个数据点与均值的偏差来确定它的异常程度。
正态分布具有以下性质:
68%的数据与均值的偏差在± 1个标准差之内
95%的数据与均值的偏差在± 2个标准差之内
童话破灭99.7%的数据与均值的偏差在± 3个标准差之内
如果某个统计量服从正态分布,则可以⽤均值和标准差来刻画任何⼀个点。例如,美国⼥性的平均⾝⾼是65英⼨(5英尺5英⼨) ,标准差是4英⼨。那么如果遇到⼀个⼥性,她⾝⾼73英⼨,我们可以说她⽐均值⾼两个标准差,是⼥性中最⾼的2.5%。(2.5%的⼥性矮于µ-2σ (57英⼨),2.5%的⼥性⾼于µ+2σ)。
在统计学中,通常使⽤z值取代n个标准差的说法来进⾏评估,z值表⽰⼀个点与均值的偏差的标准差数量。转换为z值的⽅法是从数据点减去分布的平均值,然后除以标准差。在上⾯的⾝⾼例⼦中,该⼥性的z值为2。如果我们对所有的数据点都进⾏同样操作,新的分布被称为标准正态分布,平均值为0,标准差为1,
如下所⽰。
每次进⾏假设检验时,需要假设统计数据的分布,在例⼦中是本校学⽣的平均睡眠时间。对于z检验,⽤正态分布作为检验统计量分布的近似。⼀般来说,根据中⼼极限定理,从数据分布中得到更多的均值,则均值趋向于正态分布。但是,这仍然是估计值,因为现实世界的数据并不完全服从正态分布。假设正态分布可以确定研究中观察到的结果有多⼤意义。z值越⾼或越低,那么结果越不可能是偶然发⽣的,也越有可能是有意义的。为了量化结果的意义,通常会使⽤了另⼀个概念。
. . .
最后⼀个核⼼概念是p值。p值是当零假设为真时,观察到⾄少与测量结果⼀样极端的结果的概率。
这可能看起来有点复杂,所以来看⼀个例⼦。
六英文假设正在测量美国佛罗⾥达州和华盛顿州的平均智商。零假设为,华盛顿州的平均智商不⾼于佛罗⾥达州的平均智商。通过研究,发现华盛顿的智商⾼出2.2个百分点,p值为0.346。这意味着,在零假设(华盛顿的平均智商并不⾼于佛罗⾥达的平均智商)为真的世界⾥,测量华盛顿智商⾄少⾼出2.2个百分点的可能性为34.6%。因此,如果华盛顿的智商实际上并没有更⾼,但由于随机噪声,仍然有1/3的概率测量出华盛顿智商⾄少⾼出2.2个百分点。p 值越低,结果越有意义,因为它不太可能是由噪声引起的。
结果是否具有统计学显著性,取决于在开始实验之前建⽴的显著性p值(称为alpha)。如果观察到的p值⼩于α,则结果具有统计学意义。需要在研究之前选择α,因为如果在研究之后,⼈们可以选择⼀个数字来证明结果是有意义的,不管数据显⽰什么!
α的选择取决于情况和研究领域,但最常⽤的值是0.05,相当于结果是随机发⽣的概率为5%。在平时的统计学中,常⽤的值为0.1到0.001之间。作为⼀个极端的例⼦,发现希格斯玻⾊⼦粒⼦的物理学家使⽤了0.0000003的α值,或者说只有350万分之⼀的概率是由于噪声⽽发现的该粒⼦。
为了从正态分布的z值得到p值,可以使⽤表格或者像R这样的统计软件。结果将显⽰出z值低于计算值的概率。例如,对于z值为2的情况,p值为0.977,这意味着只有2.3%的概率会随机观察到z值⾼于2的情况。
作为迄今为⽌的总结,提出了三个概念:
假设检验:⽤来检验理论的⼀种技术
1. 假设检验:
2. 正态分布:
正态分布:假设检验中数据的近似表⽰
榛子的功效值:如果原假设为真,则出现⾄少与观测值⼀样极端的结果的概率
3. p值:
那么,把这些放在睡眠例⼦中:
根据国家睡眠基⾦会的数据,全国的学⽣平均每晚睡眠7.02⼩时
在本校对202名学⽣的调查中,平均每晚睡眠时间为6.90⼩时,标准差为0.84⼩时
备择假设是,本校学⽣的平均睡眠时间低于全国⼤学⽣的平均睡眠时间
使⽤α=0.05,这意味着当p值⼩于0.05时,结果是显著的
⾸先,需要将测量值转换成z值。从测量值中减去总体均值(全国平均值),再除以样本数的平⽅根除以标准差。(随着样本数⽬的增加,标准差及其变化会减少,因此⽤样本数量的平⽅根除以标准差来解释这个现象。
有了z值测试统计量,就可以使⽤表格或者编程语⾔(⽐如 r)来计算p值。
# Calculate the results
z_score = (6.90 - 7.02) / (0.84 / sqrt(202))
电脑桌面主题
p_value = pnorm(z_score)
# Print our results
权责对等
sprintf('The p-value is %0:5f for a z-score of %0.5f.', p_value, z_score)
'The p-value is 0.02116 for a z-score of -2.03038.'
基于0.02116的p值,可以拒绝零假设。(统计学家倾向于拒绝零⽽不是接受备择假设)。有统计学上显著的证据表明,本校学⽣⽐美国⼤学⽣的平均睡眠时间少,显著⽔平为0.05。P值显⽰我们的结果有2.12%的可能是由于随机噪声。
在学校禁⽌所有家庭作业之前,需要注意不要给这个结果过多的关注。如果使⽤α=0.01,那么p值0.02116就不再重要了。如果有⼈想在研究中证明相反的观点,简单地操纵α值就可以达到。每当检验⼀项研究时,除了结论之外,还应该考虑p值和样本量。由于样本数量相对较⼩,只有202个,研究可能具有统计学意义,但这并不意味着它具有实际意义。此外,这是⼀个观察性研究,这意味着只有相关性的证据,⽽不是因果关系。研究表明,本校学⽣和平均睡眠时间的减少之间存在相关性,但这并不意味着去该学校会导致睡眠时间的减少。可能还有其他因素影响睡眠,只有随机对照研究能够证明其中的因果关系。
. . .
与⼤多数技术概念⼀样,统计显著性并不复杂,只是许多⼩概念的组合。⼤多数的⿇烦来⾃于学习词
汇!⼀旦把这些碎⽚放在⼀起,就可以开始应⽤这些统计概念了。当学习了统计学的基础知识,就能更好地以⼀种健康的怀疑态度来看待研究和新闻,可以看到数据实际上说了什么,⽽不是别⼈告诉你它的意思。
原⽂链接:/statistical-significance-hypothesis-testing-the-normal-curve-and-p-values-93274fa32687好习惯的故事