控制混杂因素,再给你⽀个⼤招:⼯具变量分析
在前⾯⼏期的内容中,我们分别介绍了对于观察性研究中不可避免的偏倚现象,可以采⽤分层分析、多因素调整和倾向性分析等⽅法来对混杂因素加以控制,这些⽅法的优点在于使⽤起来相对简单,对结果的解释易于理解,但缺点在于它们仅能控制已测量到的混杂因素所引起的偏倚,⽽⽆法消除未知的、被遗漏的、以及测量不准确的混杂因素所造成的残余混杂。
为了进⼀步消除这部分残余混杂,2006年Brookhart等⼈⾸次从计量经济学中将⼯具变量分析(Instrumental Variable Analysis, IVA)的概念引⼊到观察性研究中,经过10年的发展,⼯具变量分析法在观察性研究中得到了越来越多的应⽤,今天我们就来向⼤家介绍⼀下这种在控制混杂因素家族中相对陌⽣的新⽅法。
⼯具变量分析
⾸先介绍⼀下什么是⼯具变量,⼯具变量是指与研究暴露/处理因素相关,和其他混杂因素⽆关,并且和结局变量⽆直接关系的⼀类变量,它仅仅是通过与暴露/处理因素的关系,以及暴露/处理因素与结局变量的关系,来间接影响结局变量。
⼯具变量分析是⼀种⽤来控制测量误差和未知混杂因素引起的偏倚的估计⽅法,其基本思想为通过选择
有效的⼯具变量,采⽤⼆阶段回归分析来消除未知混杂因素与暴露/处理因素之间的关系,使得混杂因素在暴露/处理组与对照组之间的分布是均衡的,从⽽获取暴露/处理因素对结局变量⽆偏的效应估计值。
⼯具变量满⾜条件
根据⼯具变量的定义,⼀个理想的⼯具变量应该满⾜以下⼏个条件:
1. ⼯具变量应与暴露/处理因素具有⼀定的相关性,其相关性的强弱称为⼯具变量的强度,可以通过第⼀阶段回归中⼯具变量的F统计量来检验。如果F统计量>10,则可认为是强⼯具变量,如果F统计量太⼩,则为弱⼯具变量,此时往往会导致效应估计值的置信区间较宽,容易得到⽆统计学意义的结果,增加了假阴性错误的概率,估计值的可信程度就会降低,缺乏实际的临床应⽤价值。
2. ⼯具变量除了通过暴露/处理因素的作⽤途径外,与研究结局没有任何直接或间接的关系。
3. ⼯具变量与其他任何已知的或未知的混杂因素均⽆相关关系。
针对以上条件,在选择⼯具变量时我们可以参考以下3个问题来帮助判断⼯具变量的选择是否合理:
1. Is the propod instrumental variable associated with the likelihood of being expod to the intervention? (所选择的⼯具变量是否与暴露/处理因素相关?)
Did the investigator report on the empirical association? (此相关是否有依可据?)
Is the magnitude of the association sufficiently strong? (是否为强关联?)
2. Is it very unlikely that the instrumental variable influences the outcome? (所选择的⼯具变量是否对研究结局没有影响?)
3. Have investigators demonstrated prognostic balance across the levels of instrumental variable? (在所选择的⼯具变量的不同⽔平分组下,预后因素是否达到了均衡?)
⼯具变量类型
应⽤⼯具变量分析⽅法,最⼤的挑战在于要找到⼀个有效合适的、能够同时满⾜以上条件的⼯具变量。⽬前⽂献中所报道的⼯具变量种类繁多,各式各样,Journal of Clinical Epidemiology期刊于2011年发表了⼀篇系统综述,总结了5类在观察性研究中常⽤的⼯具变量类型,以供⼤家进⾏参考。
1. 基于不同地区医疗⽔平的差异
例如某个地区的医疗⽔平能够达到进⾏CT检查或⼼脏介⼊治疗的条件,那么该地区的患者则更倾向于接受相关治疗,同时地区因素与患者⾃⾝健康特征相关的因素并不相关,因此可以把地区作为⼀个⼯具变量。
2. 基于医疗机构的临床实践⽅式,例如以医疗机构使⽤某种治疗术式或药物使⽤的⽐例等作为⼯具变量。
3. 基于医⽣层⾯,例如以医⽣的处⽅偏好等作为⼯具变量。
4. 基于时间特性的⼯具变量,例如在评估流⾏性感冒疫苗疗效的研究中,以患者的痛风病史时间作为⼯具变量。
5. 基于以上变量综合起来的多个⼯具变量。
⼯具变量分析步骤
根据数据类型的不同,⼯具变量分析的算法常见的有以下⼏种:
1. 暴露/处理因素为连续型变量,结局也为连续型变量
暴露/处理因素及结局均为连续变量,例如研究运动时间对BMI的影响。对于此类因素,⽬前常⽤的最经典的⼯具变量分析⽅法为⼆阶段最⼩⼆乘法(2-stage least squares,2SLS)。
第⼀阶段回归:以暴露/处理因素为因变量,以⼯具变量和已知的混杂因素为⾃变量进⾏普通最⼩⼆乘
法回归,求得对暴露/处理因素的估计值。第⼀阶段回归利⽤⼯具变量将暴露/处理因素分解为与混杂因素相关和不相关的两个部分。
第⼆阶段回归:以结局变量为因变量,利⽤第⼀阶段回归中得到的暴露/处理因素的估计值替换暴露/处理因素的原始值,并同时将已知的混杂因素作为⾃变量,再次进⾏普通最⼩⼆乘法回归,从⽽求得暴露/处理因素对于结局的效应估计值。
2. 暴露/处理因素为连续型变量,结局为分类变量
对于此种类型的研究数据,例如研究膳⾷纤维摄⼊量对肿瘤发病的影响,第⼀阶段回归与上述2SLS⽅法的第⼀步相同,第⼆阶段回归则利⽤logistic回归,来获得暴露/处理因素的效应估计值。
3. 暴露/处理因素为分类变量,结局也为分类变量
对于此种类型的研究数据,例如研究饮酒与⾷管癌发病的关联性,有研究⼈员采⽤了两阶段预测替代法(2-stage predictor substitution,2SPS)。
第⼀阶段利⽤⼯具变量和协变量,与暴露/处理因素做logistic回归,得到暴露/处理因素的概率预测值,第⼆阶段利⽤概率预测值与结局变量再次进⾏logistic回归,以求得暴露/处理因素的效应估计值。
若结局指标是⽣存数据时,在第⼆阶段可以采⽤风险⽐例模型,即Cox回归模型来进⾏估计。
研究实例
我们依然⽤上⼀篇讲解多因素调整法时所引⽤的研究作为实例进⾏讲解。研究⼈员以566个冠脉造影中⼼30天⼼脏介⼊治疗率作为⼯具变量来进⾏分析,将研究对象按照30天⼼脏介⼊治疗率的五分位分组,⽐较各组间混杂因素的分布情况,如表1所⽰。
结果显⽰,各个地区30天⼼脏介⼊治疗率的变异范围为29%-82%,以此作为⼯具变量进⾏五分位分组后,分析发现患者预测的1年死亡率在各组基本⼀致,且其他混杂因素的分布特征也相对均衡,说明30天⼼脏介⼊治疗率为⼀个强有效的⼯具变量,达到了控制混杂因素分布不均衡的⽬的。
通过引⼊⼯具变量,最终分析得到HR=0.84(95% CI:0.79-0.90),提⽰⼼脏介⼊治疗可以有效降低⼼梗患者16%的死亡相对风险。与多因素调整法HR=0.51(95% CI:0.50-0.52)和倾向性评分匹配HR=0.53(95% CI:0.51-0.54)相⽐,结果更加保守。
研究⼈员同时对⽐了⼀项综合多个相似RCT研究的Meta分析结果,HR=0.82(95% CI:0.72-0.93),相对于多因素调整法和倾向性评分法,⼯具变量分析的结果与Meta分析的结果更为接近,说明⼯具变量分析较好地消除了未知混杂因素的影响,起到了事后随机化的作⽤。
参考⽂献
[1] JAMA. 2017 Feb 21;317(7):748-759
[2] J Clin Epidemiol. 2011 Jun;64(6):687-700
[3] JAMA. 2007 Jan 17; 297(3): 278–285
[4] JAMA. 2005 Jun 15;293(23):2908-17
(想要及时获得更多内容可关注“医咖会”微信公众号:传播研究进展,探讨临床研究设计与医学统计学⽅法)