第8讲⼯具变量
第8讲单⽅程⼯具变量回归(完)
OLS能够成⽴的假设之⼀是解释变量与扰动项不相关。否则,OLS估计量将是不⼀致的,即⽆论样本容量多⼤,OLS估计量都不会收敛到真实的总体参数。然⽽,解释变量与扰动项相关的例⼦却很多1,解决⽅法之⼀就是本讲介绍的⼯具变量法。
从历史上看,⼯具变量估计和联⽴⽅程系统是同时教授的,更⽼的教科书仅在联⽴⽅程中描述⼯具变量估计。然⽽在最近的⼏⼗年,内⽣性的处理和⼯具变量估计已经呈现出更⼴阔的前景,⽽对于联⽴⽅程完整系统设定的兴趣已经减弱。最新的教材,如Cameron & Trivedi (2005),Davidson & MacKinnon (1993, 2004)和Wooldridge (2010, 2013),把⼯具变量估计看作现代经济学家的⼯具包中不可或缺的⼀部分,⽤更长的篇幅介绍它,⽽缩短对联⽴⽅程的讨论。
在回归⽅程中,⼀个有效(valid)的⼯具变量应满⾜以下两个条件:
(1)相关性:⼯具变量与内⽣解释变量相关;
(2)外⽣性:⼯具变量与扰动项不相关。
但是,⼯具变量的这两个条件常常⽭盾,即与内⽣解释变量相关的变量往往与扰动项也相关。故在实践上,寻找合适的⼯具变量通常⽐较困难,需要⼀定的创造性与想象⼒。寻找⼯具变量的步骤⼤致可以分为两步:
(1)列出与内⽣解释变量相关的尽可能多的变量的清单(较容易)
(2)从这⼀清单中剔除与扰动项相关的变量(较困难)
传统的⼯具变量法⼀般通过“两阶段最⼩⼆乘法”(2SLS)来实现,顾名思义,即作两个回归。可以证明,在扰动项的经典假定下,由2SLS得到的⼯具变量线性组合是所有线性组合中最渐近有效的2。这个结论类似于⼩样本理论中的⾼斯—马尔可夫定理。
第⼀阶段回归:⽤内⽣解释变量对⼯具变量回归,得到内⽣解释变量的拟合值。
neglect1在计量经济学中,把所有与扰动项相关的解释变量都称为“内⽣变量”。
2在条件同⽅差的情况下,最优GMM还原为2SLS,⽽最优GMM是渐近有效的。
第⼆阶段回归:⽤被解释变量对第⼀阶段回归的拟合值进⾏回归,得到被解释变量的拟合值。
ivregress — Single-equation instrumental-variables regression
命令语法:
ivregress estimator depvar [varlist1] (varlist2= varlist iv) [if] [in] [weight] [, options]
命令描述:
ivregress拟合被解释变量depvar对varlist1和varlist2的线性回归,使⽤varlist iv 作为varlist2的⼯具变量,varlist1和varlist iv是外⽣(解释)变量,varlist2是内⽣(解释)变量。ivregress可以利⽤两阶段最⼩⼆乘法(2SLS),有限信息最⼤似然法(LIML)和⼴义矩估计(GMM)执⾏⼯具变量估计。dgg
备注和⽰例
ivregress执⾏⼯具变量回归和加权⼯具变量回归。对于⼯具变量的⼀般讨论,请参见Baum (2006),Cameron和Trivedi (2005;2010,第6章),Davidson 和MacKinnon (1993,2004),Greene (2012,第8章),以及Wooldridge (2010,2013)。参见Hall (2005)对于GMM估计的明晰介绍。Angrist和Pischke (2009,第4章)⾮正式⽽全⾯地介绍了⼯具变量估计量,包括他们在估计处理效应的使⽤。
ivregress的语法假设从⽅程系统拟合⼀个⽅程,或拟合⼀个不⽤指定剩余⽅程的函数形式的⽅程。为了拟合⼀个完整的⽅程系统,使⽤2SLS equation-by-equation或三阶段最⼩⼆乘法,请参阅[R] reg3。ivregress的⼀个优点是,可以拟合多⽅程系统中的⼀个⽅程,⽽不⽤指定剩余⽅程的函数形式。
形式上,由ivregress拟合的模型是:
y i = z iβ1 + x1iβ2+ u i(1) z i = x1iΠ1 + x2iΠ2 + v i(2) 其中y i是第i个观测值的因变量,z i表⽰内⽣回归元(varlist2),x1i表⽰包括的外⽣回归元(varlist1),x2i表⽰排除的外⽣回归元(varlist iv)。x1i和x2i统称为⼯具。u i和v i是零均值误差项,u i和v i元素的相关性假设是⾮零。
2SLS and LIML estimators
最常⽤的⼯具变量估计量是2SLS。
例1:2SLS estimator
我们有从1980年以来的州⼈⼝普查数据,包括⾃有住房价值的中位数(hsngval)和每⽉总租⾦的中位数(rent)。我们想构建rent 为hsngval和⽣活在城市地区的⼈⼝⽐例(pcturban)的函数:
rent i =β0 +β1hsngval i+β2pcturban i+ u i
其中i表⽰各个州,u i是误差项。
五金工具英语
因为随机冲击影响⼀个州的租⾦价格,也可能会影响房屋价值,所以我们把hsngval看作是内⽣的。我们相信hsngval和u的相关性不等于零。另⼀⽅⾯,我们没有理由相信pcturban和u的相关性不为零,所以我们假设pcturban是外⽣的。
因为把hsngval当作内⽣回归元,所以必须有⼀个或多个与hsngval相关但与u不相关的其他变量。此外,这些排除的外⽣变量不能直接影响rent,因为如果它们影响rent的话,就应该包含在前⾯指定的回归⽅程中。另外,家庭收⼊变量(faminc)和地区变量(region),与hsngval相关但与误差项u不相关。总之,pcturban,faminc和因⼦变量2.region,3.region和4.region构成了⼀套⼯具变量。
为了拟合⽅程,我们指定了因变量和包括外⽣变量的⾃变量。在括号中,我们指定了内⽣回归元,⼀个等号,和排除的外⽣变量。其他外⽣变量必须指定在等号的右边;出现在回归⽅程中的外⽣变量⾃动纳⼊⼯具变量。
u hsng,clear
ivregress 2sls rent pcturban (hsngval = ion)
正如所期望的,具有更⾼房屋价值的州有更⾼的租⾦价格。⽣活在城市地区的州⼈⼝⽐例对租⾦没有
显著影响。
技术说明
在联⽴⽅程的框架下,写出前⾯拟合的模型为:
hsngval i=π0 +π1faminc i +π22.region i+π33.region i+π44.region i+ v i
rent i =β0 +β1hsngval i+β2pcturban i+ u i
⽅程系统是递归的,因为hsngval出现在rent的⽅程中,但rent并没有出现在hsngval的⽅程中。然⽽,在⼀般情况下,联⽴⽅程系统不是递归的。由于系统是递归的,我们可以⽤OLS分别拟合这两个⽅程,如果我们愿意假设u和v是独⽴的。
例2:LIML estimator
理论和Monte Carlo模拟表明,LIML估计量⽐2SLS估计量可能会得到更⼩的偏差,并且置信区间的覆盖率更好。
u hsng,clear
ivregress liml rent pcturban (hsngval = ion)
这些结果与2SLS结果定性相似,尽管hsngval的系数⽐2SLS的系数⾼19%左右。
例3:GMM estimator
在扰动项的经典假定下,2SLS是最有效率的。但如果扰动项存在异⽅差或⾃相关,则存在更有效的⽅法,即“⼴义矩估
计”(Generalized Method of Moments,GMM)。在某种意义上,GMM之于2SLS,正如GLS之于OLS。
从Hann (1982)的著名论⽂以来,GMM已成为了经济学和⾦融学的常⽤估计⽅法,它⾮常适⽤于⼯具变量估计。对于更⼀般的GMM估计量,参见[R] gmm。gmm不限定拟合单个的线性⽅程,尽管语法更复杂。yoice
u hsng,clear
ivregress gmm rent pcturban (hsngval = ion), wmatrix(robust)
(wmatrix(robust)是默认选项。指定wmatrix(robust)项要求⼀个最优加权矩
阵,当误差项存在异⽅差时。)
例4:GMM estimator with clustering
有关于年轻⼥性的1968年—1988年NLS(National Longitudinal Survey)⼯资调查数据,我们想要拟合⼀个⼯资模型,⼯资是年龄、年龄的平⽅、⼯作任期、出⽣年份和教育⽔平的函数。我们认为影响⼥性⼯资⽔平的随机冲击,也会影响她的⼯作任期,所以我们把tenure看作内⽣的。额外的⼯具变量包括,是否加⼊⼯会,在过去的⼀年⼯作周数,婚姻状况。因为每名⼥性都有多个观测值(对应于多年的跟踪调查),所以我们要为每个⼈进⾏聚类。
u nlswork,clear
ivregress gmm ln_wage age c.age#c.age birth_yr grade (tenure = union wks_work msp), wmatrix(cluster idcode)
⼯作任期和教育年限对⼯资有显著的正效应。
有关GMM估计更多的内容,参见Baum (2006);Baum,Schaffer和Stillman (2003, 2007);Cameron & Trivedi (2005);Davidson & MacKinnon (1993, 2004);Hayashi (2000);Wooldridge (2010)。参见Newey & West (1987),Wang & Wu (2012)对于HAC协⽅差矩阵估计的介绍。
例5:Mincer收⼊⽅程遗漏变量的处理
Mincer(1958)最早研究了⼯资与受教育年限的正相关关系,但遗漏了“能⼒”这个变量,导致遗漏变量偏差。使⽤美国⾯板调查数据(NLS)中的年轻男⼦组,采⽤⼯具变量法处理遗漏变量的问题。
gukailai该数据集包括以下变量:lw(⼯资对数),s(受教育年限),age(年龄),expr(⼯龄),tenure(在现单位的⼯作年数),iq(智
商),med(母亲的受教育年限),kww(在“knowledge of the World of Work" 测试中的成绩),mrt(婚姻虚拟变量,已婚
=1),rns(美国南⽅虚拟变量,住在南⽅=1),smsa(⼤城市虚拟变量,住在⼤城市=1),year(有数据的最早年份,1966-1973年中的某⼀年)。这是⼀个两期⾯板数据。
u grilic,clear
correlate iq s
(智商(在⼀定程度上可视为“能⼒”的代理变量)与受教育年限具有较强的正相关关系(相关系数为0.51))virusbarrier
regress lw s expr tenure rns smsa,r
(先⽤OLS回归作为⼀个参照系,并使⽤稳健标准差。)(回归结果显⽰,教育投资的年回报率为10.26%,⽽且在1%的⽔平上显著地不为0。这意味着,多受⼀年教育,则未来的⼯资将⾼出10.26%,这个教育投资回报率似乎太⾼了。可能的原因是,由于遗漏变量“能⼒”与受教育年限正相关,故“能⼒”对⼯资的贡献也被纳⼊教育的贡献,因此⾼估了教育的回报率。)regress lw s iq expr tenure rns smsa,r
(引⼊智商(iq)作为“能⼒”的代理变量,再进⾏OLS回归。)(加⼊“能⼒”的代理变量iq后,教育投资的回报率下降为9.28%,变得更为合理些,但仍然显得过⾼。)
ivregress 2sls lw s expr tenure rns smsa (iq=med kww mrt age),r
(由于⽤iq来度量能⼒存在“测量误差”,故iq是内⽣变量,考虑使⽤变量(med, kww,mrt, age)作为iq的⼯具变量,进⾏2SLS回归,并使⽤稳健标准差。)( 在此2SLS回归中,教育回报率反⽽上升到13.73%,⽽智商(iq)对⼯资的贡献居然为负,似乎并不可信。使⽤⼯具变量法的前提是⼯具变量的有效性。为此,进⾏过度识别检验,考察是否所有⼯具变量均外⽣,即与扰动项不相关。) estat overid
( 结果强烈拒绝“所有⼯具变量均外⽣”的原假设(p值为o.oooo),即认为某些(或某个)⼯具变量不合格(invalid),与扰动项相关。) ivregress 2sls lw s expr tenure rns smsa (iq=med kww),r first
(考虑仅使⽤变量((med, kww)作为iq的⼯具变量,再次进⾏2SLS回归,同时显⽰第⼀阶段的回归结果。)( 上表显⽰,教育投资回报率降为6.08%,⽐较合理;⽽且iq的贡献也重新变为正。)
estat overid
(再次进⾏过度识别检验。)(由于p值为0.7,故接受原假设,认为(med, kww)外⽣,与扰动项不相关。)
estat firststage ,all forcenonrobust
(进⼀步考察有效⼯具变量的第⼆个条件,即⼯具变量与内⽣变量的相关性。从第⼀阶段的回归结果可以看出,⼯具变量(med, kww)对内⽣变量iq均有较好的解释⼒,p值都⼩于0.01。)( 从以上结果可以看出,虽然Shea's partial R2,不到0.04,但F统计量为13.40(超过10),⽽且F统计量的p值为0.0000。我们知道,虽然2SLS是⼀致的,但却是有偏的,故使⽤2SLS会带来“显著fal什么意思
性⽔平扭曲”(size distortion),⽽且这种扭曲随着弱⼯具变量⽽增⼤。上表的最后部分显⽰,如果在结构⽅程中对内⽣解释变量的显著性进⾏“名义显著性⽔平”(nominal size)为5%的沃尔德检验,假如可以接受“真实显著性⽔平’' (true size)不超过15%,则可以拒绝“弱⼯具变量”的原假设,因为最⼩特征值统计量为14.91,⼤于对应的临界值11.59)
ivregress liml lw s expr tenure rns smsa (iq=med kww),r
(总之,我们有理由认为不存在弱⼯具变量。但为了稳健起见,使⽤对弱⼯具变量更不敏感的有限信息最⼤似然法(LIML))( 结果发现,LIML的系数估计值与2SLS⾮常接近,这也从侧⾯印证了“不存在弱⼯具变量”。) quietly reg lw iq s expr tenure rns smsa
estimates store ols
quietly ivregress 2sls lw s expr tenure rns smsa (iq=med kww)
estimates store iv
hausman iv ols,constant sigmamore
(使⽤⼯具变量法的前提是存在内⽣解释变量。为此须进⾏豪斯曼检验,其原假设为“所有解释变量均为外⽣”,即不存在内⽣变量。)( 上表显⽰,可以在5%的显著性⽔平上拒绝“所有解释变量均为外⽣”的原假设,即认为iq为内⽣变量。由于传统的豪斯曼检验建⽴在同⽅差的前提下,故在上述回归中均没有使⽤稳健标准差(没有⽤选择项“r”)。)
estat endogenous
(由于传统的豪斯曼检验在异⽅差的情形下不成⽴,所以进⾏异⽅差稳健的DWH检验)(DWH检验的p值⼩于0.05,故可认为iq 为内⽣解释变量(在5%的显著性⽔平上)。)
ivregress gmm lw s expr tenure rns smsa (iq=med kww)
(如果存在异⽅差,则GMM⽐2SLS更有效率。为此,进⾏最优GMM估计。)(两步最优GMM的系数估计值与2SLS很接近。)
estat overid
(进⾏过度识别检验。由于p值为0.7,故认为所有⼯具变量均为外⽣。考虑迭代GMM)
ivregress gmm lw s expr tenure rns smsa (iq=med kww),igmm
(容易看出,迭代GMM与两步GMM的系数估计值相差⽆⼏。)
如果希望将以上各种估计法的系数估计值及其标准差列在同⼀张表中(有时,在论⽂中也采⽤类似的表格,便于对各种估计法的结果进⾏⽐较。),可使⽤以下命令:
quietly reg lw s expr tenure rns smsa,r
estimates store ols_no_iq
brookquietly reg lw iq s expr tenure rns smsa,r
estimates store ols_with_iq
quietly ivregress 2sls lw s expr tenure rns smsa (iq=med kww),r高管培训>中文译英文
estimates store tsls
quietly ivregress liml lw s expr tenure rns smsa (iq=med kww),r
estimates store liml
quietly ivregress gmm lw s expr tenure rns smsa (iq=med kww)
estimates store gmm
quietly ivregress gmm lw s expr tenure rns smsa (iq=med kww),igmm
estimates store igmm
estimates table ols_no_iq ols_with_iq tsls liml gmm igmm