跨层多水平模型的效应量及样本量问题
引言
Aguinis, Pierce, Bosco, & Muslin, 2009, p. 91
即便这一方法如此流行,遗憾的是实际研究中研究者们对于多水平分析的统计检验力 (Statistical power)与样本量的问题却未得到应有的重视。在2010年到2015年发表在Journal of Applied Psychology 的139篇跨层研究中,只有3篇研究报告了统计检验力或根据效应量分析事先计算最小样本量 (Scherbaum & Pesner, 2019)。类似地,2019年发表在ORM 一篇关于日记法or 经验取样法的综述,对于利用ESM 研究发表在顶刊的102研究进行统计,只有2篇报告了利用效应量分析确定level 1 和level 2 的样本量。
这一问题值得关注,因为...
Underpowered study: too low power levels.
Overpowered study: waste of time/money/labor/…(Hox et al., 2018)
其实这也并不奇怪,因为一些关于多水平分析统计检验力工具是最近10年来才发展起来的(比如Aguinis et al., 2013; Mathieu et al., 2012; Scherbaum & Ferreter, 2009)。那么,多水平分析到底应该采用多少样本量比较合适,才能保证正确的拒绝虚无假设呢?本文将简单介绍一些可以用以指导研究者的工具和文献。首先,这篇推送会介绍一下什么是统计检验力,其次,哪些因素可以影响多水平研究的统计检验力,第三简介一些可以利用确定样本量的工具。
一 统计检验力 Statistical Power
什么是统计检验力?
统计检验力是在某种效应确实存在时检测到该效应的可能性。即,正确拒绝错误的虚假假设的可能性。
| H0 true | Ha true |
H0 rejected | α= p(Type I error) | 1-β = power |
H0 not rejected | | β = p(Type II error) |
| | |
Power levels of 80% or 90% are generally ud in power calculations.
二 影响统计检验力的因素
多水平分析的统计检验力受到样本量,size of the effect, typle I error, ICC, 模型参数等因素的影响。
1. 样本量Sample Size
无论是否跨层,样本量是影响统计检验力的一个核心因素。那么多大的样本量比较合适呢?这里有一些建议:
· Kreft (1996) 建议至少30组,每个组至少30人,即900人。
For example, Kreft (1996) suggested a minimum of 30 groups with 30 individuals in tho
groups for each type of effect in multilevel rearch (e also Busing, 1993, and van der Leeden & Busing, 1994, for a similar recommendation).
· Hox (1998) 建议至少50组,每组20人,即1000人。
Hox (1998) advocated an even larger sample size, with a minimum of 50 groups and 20 individuals in each group.
那么实际情况如何呢?
Mathieu 等人对于发表在JAP上面的多水平研究文章表明,level 1 样本量的中位数为5,level 2 为51, 即总样本量为250。
Mathieu et al.’s review of articles published in the Journal of Applied Psychology found that the median Level 1 sample size was 5 and the median Level 2 sample size was 51 (i.e., total sample size clo to 250).
· 日记法/经验取样法 Gabriel 等人2019 推荐的样本量,最少83被试,测量10天及以上。
这里有一个问题是,如果想要增加统计检验力,那么究竟是增加level 2, 比较有效还是level 1 样本量比较有效呢?绝大多数的模拟研究表明,增加level 2 的样本往往比增加level 1 有效。
Most of the simulation rearch to date has found that increasing the sample size at the highest level of analysis (e.g., sampling more groups) does more to rai statistical power than increasing the sample size at the lower level of analysis (i.e., sampling more people in the groups; e.g., Kreft, 1996; Snijders & Bosker, 1993).
2. ICC
The ICC is the ratio of the between group variability to the total variability.
ICC 是群组内变异/总变异。
ICC 取值范围为0 到1. 较大的ICC 值可以增加检验level 2 效应的统计检验力 (Mathieu et al., 2012; Raudenbush & Liu, 2000).
我们也看到经常有文章中作者在论证是否进行多水平分析时候都会报告ICC, 那么管理学中的ICC 值通常多大呢?Mathieu 等人2012年对于发表在JAP跨层研究的综述表明,ICC 范围从0 到0.39。Blie 注意到在组织行为学的研究中ICC 值高于.30 是可能的。Mathieu 等人建议当ICC 值落在 .15 到.30 之间,进行跨层分析是合理的。
3. 模型参数 Model Parameter.
很好理解模型越复杂需要的样本量越多。
4. 其它因素 Other Factors
covariates at Level 1 (e.g., Raudenbush, 1997). Covariates have the potential to reduce the between-group variance and correspondingly shift the optimal allocation of sample size at each level.
测量误差 Measurement error is another factor that is rarely considered in the estimation of statistical power (Mathieu et al., 2012). Measurement error can lead to larger standard errors, which in turn result in lower statistical power.
A third factor that can impact statistical power and required sample sizes in multilevel rearch is the estimation method.
效应量的估计
Raudenbush and Liu suggested that
d = 0.20 is a small effect size,
d = 0.50 is a medium effect size, and
d = 0.80 is a large effect size
对于简单的模型power 的计算一般用G*power
对于复杂的模型及研究设计
Monte Carlo simulation study