心理科学进展 2018, Vol. 26, No. 6, 951–965 Advances in Psychological Science
DOI: 10.3724/SP.J.1042.2018.00951
951
·研究方法(Rearch Method)·
贝叶斯因子及其在JASP 中的实现
高中英语课文胡传鹏1,2 孔祥祯3 Eric-Jan Wagenmakers 4 Alexander Ly 4,5 彭凯平1
(1清华大学心理学系, 北京 100084) (2 Neuroimaging Center, Johannes Gutenberg University Medical Center, 55131 Mainz, Germany) (3 Language and Genetics Department, Max Planck Institute for Psycholinguistics, 6500 AH Nijmegen, The Netherlands) (4 Department of Psychological Methods, University of Amsterdam, 1018 VZ Amsterdam, The Netherlands) (5 Centrum Wiskunde & Informatica, 1090 GB Amsterdam, The Netherlands) 摘 要 统计推断在科学研究中起到关键作用, 然而当前科研中最常用的经典统计方法——零假设检验(Null hypothesis significance test, NHST)却因难以理解而被部分研究者误用或滥用。有研究者提出使用贝叶斯因子(Bayes factor)作为一种替代和(或)补充的统计方法。贝叶斯因子是贝叶斯统计中用来进行模型比较和假设检验的重要方法, 其可以解读为对零假设H 0或者备择
假设H 1的支持程度。其与NHST 相比有如下优势:同时考虑H 0和H 1并可以用来支持H 0、不“严重”地倾向于反对H 0、可以监控证据强度的变化以及不受抽样计划的影响。目前, 贝叶斯因子能够很便捷地通过开放的统计软件JASP 实现, 本文以贝叶斯t 检验进行示范。贝叶斯因子的使用对心理学研究者来说具有重要的意义, 但使用时需要注意先验分布选择的合理性以及保持数据分析过程的透明与公开。
关键词 贝叶斯因子; 贝叶斯学派; 频率学派; 假设检验; JASP 分类号
B841
自20世纪以来, 统计推断在科学研究中起到越来越重要的作用(Salsburg, 2001), 科学研究结论的正确性也越来越依赖于统计推断的正确应用。目前, 使用最为广泛的统计推断方法是零假设检验(Null hypothesis significance testing, NHST) (Wasrstein & Lazar, 2016)。然而, 与NHST 在各个领域中广泛使用相伴的是研究者对NHST 及p 值的误解和盲目使用(Gigerenzer, 2004; Greenland et al., 2016; Ziliak & McCloskey, 2008; 胡传鹏等, 2016; 骆大森, 2017), 因此带来一些消极的后果。例如, p 值被用来支持不合理且无法重复的研究结果(如, Bem, 2011), 引起了关于NHST 是否适合于科学研究的争论(Miller, 2011)。在这个背景之下, 有研究者推荐使用贝叶斯因子替代NHST (Wagenmakers, Wetzels, Borsboom, & van der Maas, 2011; 钟建军,
收稿日期:2017-10-10
通信作者:胡传鹏,E-mail:*******************
彭凯平,E-mail:********************.edu
Dienes, 陈中永, 2017)。
贝叶斯因子(Bayes factor)是贝叶斯统计(Bayesian statistics)中用来进行模型比较和假设检验的方法。在假设检验中, 其代表的是当前数据对零假设与备择假设支持的强度之间的比率。正如下一节将要详述的, 贝叶斯因子能够量化地反映当前数据对各个假设支持的程度, 因此可能更加适用于科研中的假设检验。但由于贝叶斯因子的统计原理及实现相对复杂, 其在各个学科的研究中并未获得广泛应用。
近年来, 随着计算机运算能力的大大提升, 贝叶斯统计在计算机等领域获得了巨大的成功(如Zhu, Chen, Hu, & Zhang, 2017)。贝叶斯统计的工具迅速发展, 如WinBUGs (Lunn, Spiegelhalter, Thomas, & Best, 2009)、JAGS (Plummer, 2003)、Stan (Carpenter et al., 2017)和Python 语言的工具包PyMC3 (Salvatier, Wiecki, & Fonnesbeck, 2016)等。这些软件和工具包的出现, 促进贝叶斯方法在各个研究领域中的使用(Depaoli & van de Schoot,
952 心理科学进展第26卷
2017; van de Schoot, Winter, Ryan, Zondervan- Zwijnenburg, & Depaoli, 2017)。在这些工具中, 也出现了用于计算贝叶斯因子的工具, 如R语言中的BayesFactor (bayesfactorpcl.r-forge.r-project. org/)。在心理学及相关领域, 最近有不少研究者试图引入贝叶斯统计的方法(Dienes, 2008, 2011, 2014; Hoijtink, 2011; Klugkist, Laudy, & Hoijtink, 2005; Kruschke, 2014; Masson, 2011; Morey & Rouder, 2011; Mulder et al., 2009; Rouder, Morey, Speckman, & Province, 2012; Rouder, Speckman, Sun, Morey, & Iverson, 2009; Vanpaemel, 2010; Wagenmakers, Lodewyckx, Kuriyal, & Grasman, 2010)。在心理学(Open Science Collaboration, 2015; 胡传鹏等, 2016)、神经成像研究(Chen, Lu, & Yan, 2018; Zuo & Xing, 2014)等领域出现“重复危机”的背景之下, 使用合理的统计方法显得更加迫切。但对于不少心理学及相关领域的研究者来说, 使用R语言或其他计算机语言进行贝叶斯因子计算仍然较为困难。为解决这一障碍, 研究者们开发了与商业统计软件SPSS具有相似图形界面的统计工具JASP (jasp-stats/, JASP team 2017) (JASP Team, 2017; Marsman & Wagenmakers, 2017a; Wagenmakers, Love, et al., 2017; Wagenmakers, Marsman, et al., 2017), 简化了贝叶斯因子的计算。
本文旨在为向心理学及相关学科的研究者介绍贝叶斯因子及其使用。首先本文将介绍贝叶斯因子的原理, 及其相对于传统假设检验中p值的优势; 再以独立样本t检验为例, 介绍了如何使用JASP计算贝叶斯因子, 以及如何解读和报告其结果。在此基础上, 讨论了贝叶斯因子的应用价值及其不足。
acup是什么意思1 贝叶斯因子的原理
贝叶斯因子是贝叶斯统计在假设检验上的应用, 因此要理解贝叶斯因子, 首先需要理解贝叶斯统计的原理。
1.1贝叶斯统计简介
贝叶斯学派(Bayesian statistics)与频率学派(Frequentist statistics)是统计学中主要的两个学派, 其核心的差异在于他们对于概率(probability)所代表的意义有着不一样的解读。对于频率学派而言, 概率是通过无数次重复抽样中频率(frequency)的预期值。与之相反, 贝叶斯学派则认为, 概率是对一件事情的相信程度, 从0到1表示人们基于所获得的信息, 在多大程度上相信某件事情是真的。由于不同人对同一事件的相信程度可能不同, 因此, 贝叶斯学派的概率是具有主观性。但贝叶斯学派的概率却不是任意的:人们通过合理的方式, 不断获取并更新已知信息, 可以最终消除主观性, 从而达成一致。
正由于频率学派将概率看作长期行为表现的结果, 要理解频率学派的概率, 通常需要假想尚未发生的事件。例如, 在NHST框架之下, p值的意义是假定H0为真的情况下, 出现当前结果及比当前结果更加极端结果的概率。换句话说, p值表达的意思是:假如H0为真, 如果采用完全相同的条件, 无数次地重复当前实验, 这些实验中将有多大比例会出现当前结果模式或者比当前结果模式更极端的模式。因此, p值的意义暗含一个重要的假设:我们能够无数次地重复试验。但研究者却经常忽略这种无数次重复相同试
验的假定, 误认为p值是单次检验中拒绝零假设时犯错误的概率(Greenland et al., 2016)。这种对NHST的误解, 恰好是带有贝叶斯统计色彩, 即根据当前的数据计算某个模型正确或者错误的概率。
与频率学派统计不同, 贝叶斯统计最大的特点之一在于:它考虑了不同可能性对于个体来说的可信度(credibility) (Kruschke, 2014)。而通过不断获得的数据, 人们可以改变对不同可能性的相应程度。这种思维方式与人们在日常生活中的经验非常相似:当我们不断地获得支持某个观点的证据时, 我们会更加相信该观点。
虽然贝叶斯统计对概率的理解与频率学派不同, 但是其对概率的计算却严格依照概率的基本原则:加法原则与乘法原则。贝叶斯统计中最核心的贝叶斯法则(Bayes rule), 也是根据简单的加法原则与乘法原则推导而来。依据概率的乘法原则, 随机事件A与随机事件B同时发生的概率为:
学习体会
(A B)(|)()(|)()
p p A B p B p B A p A
⋂=⨯=⨯ (1) 式(1)即为联合概率的公式, 即A与B同时发生的概率。其意义为:A与B的联合概率(p(A∩B))为, 在B发生的条件下A发生的概率(p (A|B))与B发生的的概率(p(B))的乘积, 也等于在A发生的条件下B发生的概率(p(B|A))与A发生的概率(p (A))的乘积。其中, p (A|B)和p (B|A)均为条件概率(conditional probability), 二者意义不同。
第6期 胡传鹏等: 贝叶斯因子及其在JASP 中的实现 953
对式(1)进行变换, 即可以得到如下公式: (A B)(|)()
(|)()()
p p B A p A p A B p B p B ⋂⨯==
(2) 式(2)即为贝叶斯定理公式。其代表的意义是, 如果我们要计算B 发生的条件下A 发生的概率
(p (A|B)), 可以通过使用A 与B 同时发生的概率
(p (A ∩B))除以B 发生的概率(p (B)), 也就等于在A 发生的条件下B 发生的概率, 与A 发生概率的
乘积, 再除以B 发生的概率。式(2)将两个条件概
率联系起来, 从而使得计算不同的条件概率成为
可能。
在贝叶斯统计的框架之下, 式(2)可以看作是
一次信息的更新。假定我们需要根据一次实验收
集到的数据(data)来检验某个理论模型为真的可
能性。以心理学研究中常用的零假设H 0为例, 则
可以将式(2)改写如下:
000(|)()
(|)()
p data H p H p H data p data ⨯= (3) p (H 0|data)表示数据更新之后理论模型H 0正
county
确的概率, 即后验概率(posterior); p (H 0)表示更新
数据之前认为理论模型H 0正确的概率, 即先验概率
(prior); 而p (data|H 0)则是在模型H 0之下, 出现当
前数据的概率, 即边缘似然性(marginal likelihood)。
由此可以看出, 在贝叶斯统计之中, 一次数据收
集(实验)的主要功能在于帮助我们更新理论模型
的可信度。
根据式(3), 我们可以使用数据对任意的模型
为真的概率进行更新。在假设检验中, 我们可以
根据观测数据同时对零假设(理论模型H 0)和备择
假设(理论模型H 1)的可信度进行更新(分别见式(3)
和式(4)), 得到它们更新的后验概率。
111(|)()
(|)()
p data H p H p H data p data ⨯= (4)
得到H 0和H 1的后验概率后, 可能对两者进
行比较, 即式(5): ()()()()111000|(|) (|)|p data H p H p H data p H data p data H p H =⨯
(5) 其中, 贝叶斯因子为:
1100(|)BF ()
p data H p dataH = (6) 在式(6)中, BF 10下标的1代表的是H 1, 0代表
的是H 0, 因此, BF 10即代表的是H 1与H 0对比的贝
叶斯因子, 而BF 01则代表的是H 0与H 1对比的贝
叶斯因子。例如, BF 10 = 19表示的是, 在备择假设
H 1为真条件下出现当前数据的可能性是虚无假设
breathless是什么意思H 0条件下出现当前数据的可能性的19倍。从这个
定义公式中可以看出, 贝叶斯因子是体现了当前数
据将先验概率更新为后验概率过程中的变化。the crew
正是如此, 贝叶斯因子与NHST 回答了不同
的问题。NHST 试图回答“假定我们已知两个变
量的关系(如, 两种条件没有差异), 出现当前观
测数据的模式或者更加极端模式的概率(p (more
extreme > obrved data|H 0))有多大”
的问题; 而贝叶斯因子试图回答的是:“在当前数据更可能在哪
个理论模型下出现”的问题。在假设检验中, 贝
叶斯因子具有一些NHST 不具备的优势(见表1),
下一小节将对这些优势进行详细说明。
在Jeffreys (1961)的基础上, Wagenmakers,
Love 等人(2017)对贝叶斯因子的大小所代表的意
义进行原则上的划分(见表2)。但是这个划分仅是
大致参考, 不能严格对应, 研究者需要根据具体
的研究来判断贝叶斯因子的意义。
1.2 备择假设的默认先验
由于贝叶斯因子中先验概率具有至关重要的
作用, 如何选择备择假设的先验分布变得尤其重
表1 假设检验中贝叶斯推断与传统NHST 推断的比较
假设检验中的问题
贝叶斯因子infant
传统推理
参考文献
1. 同时考虑H 0和H 1的支持证据 √ × 10, 11
2. 可以用来支持H 0
√ × 12, 13 3. 不“严重”地倾向于反对H 0
√ ×
14, 15, 16
4. 可以随着数据累积来监控证据的强度 √ × 17, 18
5. 不依赖于未知的或者不存在的抽样计划
√
× 19, 20
注:10 = Jeffreys (1935); 11 = Jeffreys (1961); 12 = Rouder, et al. (2009); 13 = Wagenmakers (2007); 14 = Edwards (1965); 15
= Berger and Delampady (1987); 16 = Sellke, Bayarri, and Berger (2001); 17 = Edwards, Lindman, and Savage (1963); 18 = Rouder (2014); 19 = Berger and Berry (1988); 20 = Lindley (1993).
954
心 理 科 学 进 展 第26卷
表2 贝叶斯因子决策标准
贝叶斯因子, BF 10
解释
> 100 极强的证据支持H 1 30 ~ 100 非常强的证据支持H 1 10 ~ 30 较强的证据支持H 1
3 ~ 10 中等程度的证据支持H 1 1 ~ 3 较弱的证据支持H 1 1 没有证据
1/3 ~ 1 较弱的证据支持H 0 1/10 ~ 1/3 中等程度的证据支持H 0 1/30 ~ 1/10 较强的证据支持H 0 1/100 ~ 1/30 非常强的证据支持H 0 < 1/100
极强的证据支持H 0
要。其中一个较为合理的做法是, 根据某问题的先前研究结果(如元分析得到的效应量)来设定备择假设的先验分布。但这种做法在很多情况下并不现实:首先根据范式的不同, 效应量的可能分布不同; 更重要地, 由于许多研究本身具有一定的探索性, 并没有先前研究结果作为指导。因此, 更加常用的做法是使用一个综合的、标准化的先验。
例如, 在贝叶斯t 检验中, 使用柯西分布
(Cauchy distribution)作为备择假设的先验可能是比较合理的选择(Jeffreys, 1961; Ly, Verhagen, &
bring up
Wagenmakers, 2016a, 2016b; Rouder et al., 2009)。与标准正态分布相比, 柯西分布在0附近概率密度相对更小一些, 因此其比标准的正态允许更多较大的效应(见图1); 而与均匀分布(即效应量在所有值上的分布完全相同)相比, 柯西分布更偏好零假设一些(Jeffreys, 1961; Rouder et al., 2009)。因此, 对于备择假设的先验分布, 可以如下表示:
48yr old japanepp()0δ ~0,γ1Cauchy x ==
其中x 0为柯西分布的位置(position)参数, γ为尺度参数(Cauchy scale, 也有文献中使用r 来表示)。Jeffreys (1961)最早提出在贝叶斯因子中使用柯西分布作为先验来比较两样本的问题。最近研究者的进一步验证表明, 柯西分布可以作为先验用于计算心理学研究中常用的贝叶斯因子分析, 如t 检验(Rouder et al., 2009)、ANOVA (Rouder et
al., 2012)和相关分析(Ly, Marsman, & Wagenmakers, 2018; Ly et al., 2016b)等。这些验证性的工作, 为贝叶斯因子在心理学及相关学科研究中的应用打下了基础。
图1 柯西分布与正态分布的对比
2 贝叶斯因子的优势
如前所述, 在假设检验中, 贝叶斯因子除了更加符合人们的直觉之外, 还具有一些NHST 所不具备的优势。这些优势可以总结为五个方面(见表1)。以下将从这五个方面展开。 2.1 同时考虑H 0和H 1
accounting贝叶斯因子的计算同时考虑H 0和H 1, 并根据全部现有数据对H 0和H 1为真的先验概率进行更新, 在此基础之上, 比较在当前数据下哪个理论模型(H 0和H 1)更合理。这种思路与NHST 不同:在NHST 框架之下, 计算p 值仅需要假定H 0为真, 而对H 1不做任何假设, 因此p 值与H 1无关。NHST 的逻辑是, 如果H 0为真的条件下, 观察到当前数据出现的概率非常小, 则拒绝H 0, 接受H 1。这种情况下, NHST 忽略了一种可能性:当前数据下,
H 1为真的概率与H 0为真的概率相当或者更小(Wagenmakers, Verhagen, et al., 2017)。例如, 在Bem (2011) 中, H 0是被试的反应不受到未来出现刺激的影响, H 1是未来出现的刺激会影响到被试当前反应, 即被试能够“预知”尚未出现的刺激。虽然采用NHST 的逻辑Bem (2011)得到了p < 0.05的结果, 即H 0为真时, 得到当前数据的概率(p
(data |H0))很低, 因此作者选择拒绝H 0而接受H 1, 认为被试能够预知未来出现的刺激。然而, 研究者更关心的是, 根据当前数据, 我们能够得到某个模型/假设(如H 1)为真的概率(p (H 1|data )), 而非零假设H 0为真时得到当前数据的概率(p (data |
H 0))。在Bem (2011)这个研究中, 先验知识告诉我们H 1本身为真的概率可能非常低, 在当前数据模式
下, H 1为真的可能性p (H 1|data )极可能比H 0为真的可能性p (H 0|data )更低(Rouder & Morey,
2011; Wagenmakers et al., 2011), 但NHST 却完全忽视了这一点。
第6期胡传鹏等: 贝叶斯因子及其在JASP中的实现 955
2.2可以用来支持H0
同样, 由于贝叶斯因子同时量化当前数据对H0和H1各自的支持强度, 其可以用来支持H0 (Dienes, 2014)。但是, 在传统的NHST框架之下, 假设检验仅在H0为真的假设下进行, 仅凭借小于显著性水平(比如0.05或0.005)无法为H0是否为真提供证据。比如, 仅依据假设检验的结果p = 0.2并不能推断有证据表明没有效应(evidence of abnce) (除非结合样本量、效应量和统计效力Power做出综合判断)。
实际的研究中, 能够对H0提供量化的证据具有非常重要的意义(Gallistel, 2009; Rouder et al., 2009), 它可以直观地让研究者区分出有证据表明没有效应(evidence of abnce)和没有证据表明有效应(abnce of evidence)这两种情况(Dienes, 2014)。具体来说, 贝叶斯因子的结果有三种状态:
(1)提供了支持H1的证据(即有证据表明有效应);
(2)支持H0的证据(即有证据表明没有效应); 或(3)证据对两者都不支持(没有足够的证据表明有效应还是
无效应)。例如, 贝叶斯因子BF01= 15表明观察到的数据出现在H0为真情况下的可能性是在H1为真情况下的可能性的15倍, 表明当前数据更加支持没有效应的假设H0。但是, 假如BF01= 1.5, 则说明观察到的数据出现在H0为真情况下的可能性是在H1为真情况下的可能性的1.5倍, 则说明当前数据对于两个假设的支持程度相当, 没有足够的证据支持H0或者H1 (见表2关于贝叶斯因子大小意义的建议)。
值得注意的是, 不管是支持H1, 还是支持H0, 贝叶斯因子提供的证据是相对的, 即相对于某个假设更支持另一个假设, 因此可能存在第三个模型H2比H1和H0均更接近真实情况, 具有更高的后验概率。值得指出的是, 最近有研究者在NHST 框架之下发展出可以接受零假设的方法:等同性检验(Equivalence Test)。这种方法通过设定多个H0来检验效应量是否与0没有差异, 从而检验是否能接受H0 (Lakens, 2017)。但等同性检验仍然使用了p值, 无法提供对证据的直接测量(Schervish, 1996)。
2.3不“严重”地倾向于反对H0
贝叶斯因子同时分别量化了当前数据对H0和H1支持的强度, 其与传统NHST相比, 其对H0和H1的支持更加均衡, 从而其拒绝H0的倾向也相对没有那么强烈。
在传统NHST假设之下, 只要研究者能够收集足够多的数据, 总能够得到p < 0.05从而拒绝H0, 与之相反的是, 贝叶斯因子会随着数据的增加而逐渐趋于稳定(见后文3.2小节关于贝叶斯因子收敛的讨论)。对于同样的数据, p值也似乎比贝叶斯因子对H0的反对程度更强。例如, 有研究者分析了美国总统选举中
候选人的身高与当选之间的关系, 对相关系数进行显著性检验之后发现r = 0.39, p = 0.007 (Stulp, Buunk, Verhulst, & Pollet, 2013)。如果使用贝叶斯因子分析, 则会得到BF10 = 6.33 (Wagenmakers, Marsman, et al., 2017)。虽然两种方法大致上支持了同样的结论(即拒绝H0与中等程度的证据支持H1), 但是从p值上看, 似乎表明拒绝H0的证据很强, 而贝叶斯因子得到的支持则是有保留的。Wetzels等人(2011)比较了855个t检验的结果, 发现虽然大部分的情况下p值与贝叶斯因子在结论上的方向一致, 但是贝叶斯因子相对来说更加谨慎:p值在0.01与0.05之间的统计显著结果, 其对应的贝叶斯因子只表明有非常弱的证据。对传统p值的贝叶斯解读, 详见(Johnson, 2013; Marsman & Wagenmakers, 2017b)。
2.4 可以监控证据的强度变化
计算贝叶斯因子时, 可以根据数据来更新对H0和H1支持的程度, 因此, 随着新数据的出现, 可以不断对不同假设的支持程度进行更新。在贝叶斯框架之下, 贝叶斯因子的计算与解读均不需要假定存在无数的重复实验, 而是按照似然性法则对贝叶斯因子进行更新, 此外数据的出现顺序不会影响贝叶斯因子的解读(Rouder, 2014)。
贝叶斯统计的框架之下, 不需要假定无数次重复试验, 对贝叶斯因子的解读不会受到何时停止收集数据的影响(Rouder, 2014)。实际上, 如果研究者们能够采用序列贝叶斯因子设计, 在实验开始前提前设置贝叶斯因子的合理阈值(通常是10, 即较强的证据), 则能够在实验中根据数据增加对后验概率进行更新,
可以在适当的时候停止收集数据(Schlaifer & Raiffa, 1961; Schönbrodt, Wagenmakers, Zehetleitner, & Perugini, 2017)。这种不受到停止规则影响的原则, 对实际研究具有重要的意义, 使得研究者能合理有效地收集数据。
2.5 不受抽样计划的影响
抽样计划指研究者根据数据分析的假设, 在