正确姿势:回归系数该如何解释?
作者:陈贤孟 (厦门⼤学)
⽬录
1. 引⾔
2. 系数的解释
2.1 对数相关的模型
2.2 交互项模型
3. 评估系数⼤⼩
3.1 经济显著性
3.2 评估解释的的变动有多少
4. 参考⽂献和资料
编者按:本⽂主要源于江艇⽼师和连⽟君⽼师在「连享会-2020 暑期班」上讲授的内容,特此致谢!
1. 引⾔
在研究过程中,当得到实证结果后,除了看系数的正负和统计显著性以外,如何对系数进⾏解释以及评估系数的⼤⼩,同样也是⼀个重要的问题。本⽂对不同模型设定形式下的估计系数的解释进⾏梳理,同时也对如何评估系数的⼤⼩进⾏⼀定的讨论。
2. 系数的解释
2.1 对数相关的模型
在实证研究过程中,根据研究⽬的的需要,研究者往往会对变量进⾏取对数的处理。根据变量是否取对数,我们可以将模型设定分成如下四种情形。
情形 1:和均不取对数,具体⽅程如下:
在和均取⽔平值的情况下,的含义是,当变动 1 单位,平均变动个单位。
情形 2:和均取对数,具体⽅程如下:
disturbed
在和均取对数值的情况下,的含义是,当变动 1%,平均变动 % 。
和均取对数的模型也称为常弹性模型。上述两种情形的系数解释较为容易理解与记忆。当和仅有⼀个取对数的情形称为半弹性模型。对半弹性模型的系数解释往往容易遗忘。具体如下:
情形 3:取对数⽽取⽔平值,具体⽅程如下:
在取对数值⽽取⽔平值的情况下,的含义是,当变动 1%,平均变动 0.01 个单位。
情形 3 下的系数解释,可结合以下式⼦进⾏理解:bdi
变动 1%, 即 , 此时,所以的含义是,当变动 1%,平均变动 0.01 个单位。
情形 4:取⽔平值⽽取对数,具体⽅程如下:
在取⽔平值⽽取对数值的情况下,的含义是,当变动 1 单位,平均变动 100% 。
情形 4 下的系数解释,可结合以下式⼦进⾏理解:
2013年6月六级
变动 1 个单位, 即 , 此时,所以的含义是,当变动 1 个单位,的平均变动率为。假设 , 我们可称平均变动 5% (即 %)
viewpoint
2.2 交互项模型
交互项模型作为实证研究过程中⼀种常见的模型,其基本设定如下:
栗色⾸先,通过对求偏导,得到如下等式:
由式 (8) 可知,对的边际效应不是常数,⽽是随着的取值不同⽽发⽣变化。交互项的系数的含义为,变量对对的边际效应的影响。
值得注意的是,在交互项模型中,对的系数的解释需格外⼩⼼。在交互项模型中,我们有:
因此,在交互项模型中,的含义为,当时,变动 1 单位, 变动单位。正因如此,当模型中加⼊交互项时,的估计值会发⽣⼀定的变动。
更多关于交互项系数的讨论,可参考连享会推⽂专题:【交乘-调节-中介】。
3. 评估系数⼤⼩
在实证研究过程中,研究者除了关⼼系数的统计显著性以外,为了评估研究结果的经济意义,往往需要对估计系数的⼤⼩进⾏相应的评估。⼀般⽽⾔,可以通过检验系数的经济显著性和变量的解释⼒来评估系数⼤⼩。
3.1 经济显著性
植树节英语
吴⼩康 (2019) ⼀⽂详细地阐述了统计显著性与经济显著性的区别,以及经济显著性的重要性。该⽂指出,考虑⽤⼀个采⽤新药治疗癌症的例⼦,统计显著性告诉我们的往往是该药是否有效,⽽现实⽣活中,患者更关⼼的往往是该药的效果究竟有多⼤。后⼀个问题所涉及的,便是研究结果的经济显著性的问题。关于经济显著性的评估,⽬前尚未有⼀种统⼀的⽅法与标准,此处梳理了较为常见的两种⽅法:
⽅法 1:与的均值做对⽐
Chen and Lan (2020) 的⽂章研究了家庭联产承包责任制对农民耕地技术的影响。该⽂指出,在家庭联产承包责任制实施以后,⼩规模的家庭农场更多地采⽤了役畜进⾏耕地,拖拉机逐渐被役畜所取代。在⽂章的实证结果描述中,有着这样的⼀段表述:
After six years, the gradual buildup accumulated into a large causal effect: an increa of 69 head or 66 percent of the pre-reform mean.
这段话的含义是,在实施家庭联产承包责任制以后,每 100 公顷的役畜数量六年内增长了 69 头,是改⾰前平均值的 66%。
作者通过把对的影响与的均值做⽐较,表明这是⼀个⼤的因果效应 ( large causal effect )
乔布斯传通过将系数⼤⼩以的均值做对⽐来评估经济显著性的⽂献还有 Li et al. (2016) 等。
⽅法 2:评估变动⼀个标准差引起变动⼏个标准差
数据的标准差表⽰数据的平均偏离幅度,相⽐评估变动⼀单位,变动多少单位,从标准差层⾯来讨论往往更具经济意义。因此,研究者会通过观察标准差相对⼤⼩的变动,即变动⼀个标准差引起变动多少个标准差,来评估结果的经济显著性。
Huang et al. (2017) 的论⽂研究了企业到当地政府的距离与国企权⼒下放的关系,以验证哈耶克假说。该⽂在表述实证研究结果的经济含义时,采⽤了如下的表述⽅式:
Using the pooled sample estimates, increasing the distance by one standard deviation (SD, here 2.40) would increa the probability of decentralization by 1.3 percentage points, or 9 percent of the SD of the dependent variable.
这⼀段的含义为,当 (企业到当地政府的距离)增加⼀个标准差时, (权⼒下放的概率)增加 0.09 个标准差,表明具有⼀定的经济显著性。
通过评估标准差的相对变动来说明系数的经济显著性的⽂献还有 Nunn and Wantchekon (2011)、 Adit & Franck (2015)、Hoynes et al.(2016) 等。
3.2 评估解释的的变动有多少
钞票的英文
除了通过判断经济显著性来解释系数的经济含义外,还可以通过评估相对于其他解释变量的解释⼒ (explanatory power) 来解释系数的经济含义。江艇⽼师「连享会-2020 暑期论⽂班」上的讲义,为我们提供了⼀种评估的解释⼒的⽅法。具体如下:
式 (10) 为我们提供了⼀种计算解释了多少的 variation 的⽅法。下⾯结合 Nunn and Wantchekon (2011) 对式 (10) 进⾏解读。
Nunn and Wantchekon (2011) 研究奴⾪贸易对当今⾮洲⼈民的信任程度的影响,在原⽂中,有如下⼀段表述:
' We find that slave exports and the other covariates together explain 5.4 percent of the total variation of trust in neighbors. Of this 5.4 percent, 16–27 percent is explained by slave exports'
该段话的含义为:除了国家固定效应以外,奴⾪贸易和其他解释变量,⼀共解释了对邻居的信任的变动中的 5.4%, 在这 5.4%中,⼤约有 16%-27%是由奴⾪贸易解释的。
考虑以下模型:
具体到本例中,为奴⾪贸易,为其他控制变量,为国家固定效应。式 (10) 中,指由国家固定效应所解释的的 variation,
表⽰除国家固定效应以外,奴⾪贸易和其他控制变量所解释的的 variation,即⽂中所述的 5.4%。
为理解式 (10) 的分⼦部分,下⾯结合连享会推⽂:加⼊控制变量后结果悲催了?!(微信版) 中的图 6 进⾏解读。(有关分解以及系数解释⼒对⽐这⼀问题,可以参考连享会推⽂ R2分解:相对重要性分析 (Dominance Analysis),以及如何⽐较解释变量的系数相对⼤⼩?)。
上图表明:
由于和具有⼀定的相关性,图中的为和共同解释的的 variation。
可以近似理解为上图中的 , ⽽可以近似理解为上图中的 , 因此,的含义为,将和共同解释的的variation 完全归因于,进⽽得到解释的的 variation 的下界。
类似地,通过将和共同解释的的 variation 完全归因于,进⽽得到解释的的 variation 的上界。
相关的 Stata 代码如下所⽰ (你可以到连享会推⽂数据主页下载范例中使⽤的数据⽂件) :
// 调⽤数据
*-数据下载地址:
* /arlionn/data/tree/master/data01
u 'nunnw_2011.dta', clear
u 'nunnw_2011.dta', clear
prerve
// 删除缺失值
global x1 'trust_neighbors ln_export_area murdock_name age age2 male urban_dum '
global x2 'education occupation religion living_conditions '
global x3 'district_ethnic_frac frac_ethnicity_in_district isocode'
global x '$x1 $x2 $x3'
foreach v of varlist $x{
drop if missing(`v')==1
}
/* None */
quietly xi: reg trust_neighbors i.isocode
gen r_w=e(r2) //计算仅加⼊国家固定效应时的R⽅
/* Slave Trade Only */
英语口语练习quietly xi: reg trust_neighbors ln_export_area i.isocode
gen r_x1_w=e(r2) //计算加⼊奴⾪贸易变量及国家固定效应时的R⽅
/* Other Characteristics */
quietly xi: reg trust_neighbors age age2 male urban_dum i.ligion i.living_conditions district_ethnic_frac frac_ethnicity_in_district i.isocode
gen r_x2_w=e(r2) //计算加⼊其他控制变量及国家固定效应时的R⽅
honesty/* Both */
quietly xi: reg trust_neighbors ln_export_area age age2 male urban_dum i.ligion i.living_conditions district_ethnic_frac frac_ethnicity_in_district i.isocode gen r_x1_x2_w=e(r2) //计算加⼊所有变量时的R⽅
dis r_x1_x2_w - r_w //计算X1、X2对 Y 的variation的贡献
.05397503
dis (r_x1_x2_w-r_x2_w)/(r_x1_x2_w-r_w) //计算下界
.16039986
dis (r_x1_w-r_w)/(r_x1_x2_w-r_w) //计算上界
.27154186
restore
4. 参考⽂献和资料
温馨提⽰:⽂中链接在微信中⽆法⽣效。请点击底部「阅读原⽂」。
连享会推⽂:加⼊控制变量后结果悲催了?!(微信版)
连享会推⽂:R2分解:相对重要性分析 (Dominance Analysis)
连享会推⽂:如何⽐较解释变量的系数相对⼤⼩?
吴⼩康.关于统计显著与经济显著的若⼲讨论[J].经济学动态,2019(01):145-158.
Chen S, Lan X. Tractor vs. animal: Rural reforms and technology adoption in China[J]. Journal of Development Economics, 2020: 102536.
Li P, Lu Y, Wang J. Does flattening government improve economic performance? Evidence from China[J]. Journal of Development Economics, 2016, 123: 18-37.
Huang Z, Li L, Ma G, et al. Hayek, local information, and commanding heights: Decentralizing state-owned enterpris in China[J]. American Economic Review, 2017, 107(8): 2455-78.
Nunn N, Wantchekon L. The Slave Trade and the Origins of Mistrust in Africa[J]. The American Economic Review, 2011, 101(7): 3221-3252
Aidt T S, Franck R. Democratization under the threat of revolution: Evidence from the Great Reform Act of 1832[J]. Econometrica, 2015, 83(2): 505-547.
Hoynes H, Schanzenbach D W, Almond D. Long-run impacts of childhood access to the safety net[J]. American Economic Review, 2016, 106(4): 903-34.