访家庭⼊户调查资料,运⽤倾向得分匹配法对互助医疗改善卫⽣服务实现的可及性进⾏效果评价;陈⽟萍等(2 010)运⽤倾向得分匹配法分析了滇西南农户采⽤改良的陆稻技术对农户收⼊的影响。
三、研究步骤
倾向得分法的应⽤主要有以下 7 个步骤:
(1 )准备数据。对数据进⾏质量审核,鉴别数据类型,考察数据的完整性及逻辑性,根据数据类型和⼤⼩来选择相应的分析⽅法。
(2 )选择协变量。针对试验⽬的,根据研究者的经验及倾向得分法变量的选择要求,选择合适的混杂因素。然后将混杂因素作为⾃变量,处理因素作为因变量进⾏模型的构建。从模型中获得倾向得分的估计值,这⾥可选的模型包括判别分析,Logistic 回归和 Probit 回归,本⽂之后应⽤的是 Probit 回归。 Probit 回归模型和 L ogistic 回归模型相同,是定性回归模型的⼀种,都可⽤来处理⼆分变量的回归问题。
(3 )计算倾向得分。根据选定的模型计算每⼀个试验对象的倾向得分,值在 0 ⾄ 1 之间,表⽰试验对象被分配到试验组或对照组的概率。
(4 )选择应⽤⽅法。根据计算出来的倾向得分,选择合适的倾向得分应⽤⽅法。常⽤的倾向得分法
有:倾向得分匹配法(p ropensity score matching)、倾向得分加权法(p ropensity score weighting)、倾向得分分层法( propensity score stratification )和倾向得分协变量调整法(p ropensity score covariate adjustment) [8] 。
(5 )评价均衡性。应⽤倾向得分法前后需评价组间的均衡性好坏,协变量的均衡性好坏是衡量倾向得分法的关键。⼀般⽤来评价均衡性的好坏的⽅法是假设检验,标准化差异是 F lury 和Reudwyl(1 986)提出的⼀种全新的评价均衡性的⽅法。
(6 )估计处理效应。对匹配后的数据集选择恰当的分析⽅法来估计处理效应。因匹配后的处理组和对照组之间的协变量已达到均衡,此时数据可被当做是近似随机化的,假如选择的统计分析⽅法是合适的就可得到真实可靠的处理效应。
(7)分析敏感性。在⼀次试验中,好的匹配⽅法产⽣不完整的匹配集是⽆法避免的,这种匹配的不精确性是很难消除的。所以,如何在匹配精度与完整度之间进⾏选择还有待探讨。⽤⽐较数据集在匹配前后的精确度与完整度是评价不同的匹配算法的优势是⼗分重要的。
四、倾向得分的估计⽅法
估计倾向得分的⽅法有许多种,其⽬的是⽤⼀个倾向得分来表⽰试验对象可观测到的、影响处理因素的众多协变量,然后调整试验个体倾向得分来估计处理效应。⼏种常见的估计倾向得分⽅法:
4.1 ⼴义线性模型
⼴义线性模型的思想:假如对应变量作适当的变量变换可满⾜或近似满⾜线性模型分析的要求,能够借助线性模型的分析思路解决模型构造、参数估计和模型评价等⼀系列问题。⼴义线性模型包括 logistic 回归模型、⾮参数回归、 Probit 模型、⼴义可加模型等,均可被⽤来估计倾向得分。其中 l ogistic 回归模型是最常⽤也是最简单的模型,在已发表的倾向得分相关⽂献中,多数采⽤ logistic 回归模型来估计倾向得分,因为它要求因变量服从正态分布,对⾃变量的类型也⽆要求,均可引⼊ l ogistic 回归模型中。但在计量经济学中,更多使⽤依赖于正态理论
的 P robit 模型。
4.2 判别分析
判别分析,是在已经明确分类的前提下,根据某⼀研究对象它的各种特征值来判别其应归属于哪⼀类的⼀种多变量统计分析⽅法,其基本原理是按照判别准则,通过建⽴⼀个或多个判别函数,使⽤研究对象的⼤量资料从⽽确定判别函数中需待定的系数,并计算判别指标。据此即可确定某⼀样本属于何类。常⽤的判别分析有逐步判别分析、距离判别分析、Bayes 判别分析、Fisher 判别分析等。在⾮随机化研究倾向得分计算中,判别分析也⽐较常⽤,但是它要求观察到的协变量须服从多元正态分布,这样分配出来的试验组和对照组在某种意义上来说,均衡了组间的协变量,可以获得平均处理效应的
⽆偏估计。
4.3 COX ⽐例风险模型
COX⽐例风险模型是建⽴风险函数与观察协变量之间的⼀种回归关系,主要应⽤在⽣存资料的统计分析研究中,它是把风险函数构造成观察到的协变量的对数线性函数。 COX⽐例风险模型能估计试验对象⽣存状态的风险率。如果将这种表⽰试验对象⽣存状态风险率作为倾向得分,则可以根据倾向得分的研究⽅法对试验进⾏匹配处理,然后通过统计分析获得处理效应的估计。如果⼀个试验满⾜以下两个基本特征,则可以采⽤C OX⽐例风险模型来估计倾向得分。
(1 )该试验数据为⽣存分析数据;
(2 )影响死亡风险的协变量是可观察的。如果⽣存数据中存在时间依赖的结果变量或者协变量,此时,采⽤倾向得分的⽅法要特别⼩⼼。
4.4 神经⽹络技术
神经⽹络技术是⼀种⽐较新的⽅法,它是⼀种模仿动物神经⽹络⾏为特征,进⾏分布式并⾏信息处理的算法数学模型。神经⽹络由输⼊层、中间层和输出层组成;每⼀层都包含⼀组结点,这些结点与下⼀层的各个结点进⾏直接关联。作为⼀种估计倾向得分的⼯具神经⽹络技术已经被认可,并与 l ogisti
c 回归模型进⾏⽐较,显⽰出其具有实⽤性。与 logistic 回归模型相⽐,其明显的两个优势:其⼀,它能处理⾼维度的数据,虽然每⼀组数据仅有可能对分类结果产⽣微⼩影响,据此进⾏微⼩的调整就能得到更精确的分组;其⼆,不论多项式有多么的复杂,亦能够找到⾜够复杂的⽤来拟合的神经⽹络来 [12] 。⽽采⽤ l ogistic 回归模型估计倾向得分时,研究者需事先考虑到模型中包含哪些⾼次项和交互作⽤效应。
五、倾向得分的应⽤⽅法
1、倾向得分匹配法
在倾向得分各种⽅法中,被⼴泛应⽤的是倾向得分匹配法。从控制组中选出与处理组各特征相近的研究对象进⾏配对是传统的匹配⽅法,是为了排除匹配因素的⼲扰。传统的匹配⽅法只能针对某个或某⼏个变量进⾏配对,并不适⽤于变量较多的情况。
最简单的匹配是最近邻( Nearest neighbour )匹配法。从对照组中挑选⼀个倾向得分最符合处理组的某个试验对象。之后,按照倾向评分值⼤⼩把两组观察对象进⾏排序, 从处理组中顺次选出个研究对象, 从对照组中找寻倾向评分值与处理组对象最接近的 1 个对象作为配⽐个体。假如对照组中倾向得分差值相同的个体有 2 个或 2 个以上, 就按随机的原则选择。将配⽐成功的对象⾃源⼈群中除掉, 接着进⼊到下⼀个处理对象的配⽐过程, 处理组中的所有对象都完成匹配才结束。配⽐时⼀般应规定配⽐精度,
如倾向评分值相差< 0.01="" 或="">< 0.001。="" 假如=""研究者想对某个重要变量精确匹配,="" 就="" 可以先根据该变量分层后,="" 分="" 别对每层="" ⼈群进⾏单纯倾向得分配⽐。之后将配⽐⼈群进⾏合并,="" 两组研究⼈群中这个变="" 量分布完全相同即可结束。这个⽅法确保这个变量精确匹配,="" 然⽽精确匹配因素="" 及其因素⽔平⽐较少,="" ⽽="" 且样本量必须⾜够⼤。还有⼏个变形的最近邻匹配:最近邻匹配的“替代”法和“⽆替代”法。在前者的情况下,未处理的个⼈可以="" 使⽤⼀次以上作为⼀个匹配,⽽在后者的情况下,它被认为是只有⼀次。搭配="" 更换,涉及的偏差和⽅差之间的权衡。假如我们允许替换,平均质量的匹配将="" 增加,会减少选择性偏倚。倾向得分分布是⼗分不同的,在对照组和处理
组的="">
马⽒距离匹配法是另⼀种常⽤的匹配⽅法,通过马⽒距离评价研究对象特征相近的程度,即计算处理组和控制组研究对象的马⽒距离,并对马⽒距离最⼩的两个研究对象进⾏配对,直到与处理组所有的研究对象配对完成。马⽒距离排除了变量间相关性的⼲扰,消除了量纲的影响,但也不适⽤于协变量较多的情况。⽽倾向得分可以综合表⽰多个协变量的共同作⽤,不受协变量数⽬的限制。倾向得分匹配是在通过模型计算倾向得分后,从对照组中选出与处理组倾向得分相等或相近的研究对象进⾏配对,直到所有符合匹配规则的处理组研究对象配对完毕,视为匹配完成,来达到均衡组间的协变量分布的⽬的。
匹配的算法可分为两种:局部最优匹配法好全局最优匹配法。局部最优匹配法是指对处理组研究对象进⾏随机排序后,从处理组的第⼀个研究对象开始,在对照组中查找倾向得分与其最接近的研究对象,直到处理组所有研究对象都形成配对,它的优点在于匹配集的最⼤化,最⼤程度地保留了原始样本的信息全局最优匹配法是把匹配问题转化为运筹学中⽹络流问题,把处理组和对照组的研究对象看作节点,把匹配转化为求节点间的总距离的最⼩化问题,不保证处理组的每个研究对象都能找到最优的匹配,也就是说,处理组与对照组间匹配的两个研究对象倾向得分的差值可能并不是最⼩的,但是能保证匹配数据集倾向得分总体差值的最⼩化,这个优势是局部最优匹配法⽆法⽐拟的,但是数据海量时,该⽅法需要建⽴巨⼤的距离矩阵,影响执⾏效率,所以在实际应⽤中并不多见。
卡钳匹配(caliper matching)是事先设定处理组与控制组的研究对象倾向得分的差值在某范围内才能进⾏匹配的⽅法 [2] ,卡钳值就是事先设定的这个范围,卡钳设置越⼩,匹配之后的样本均衡性会越好,但是会造成匹配集样本量会变⼩,从⽽降低估计处理效应的准确性;反之,卡钳值越⼤,能完成匹配的个体就越多,从⽽匹配集样本量就越⼤,但同时也会产⽣⼀些部分不良匹配,即倾向得分差值较⼤的对照组与处理组研究对象形成匹配,导致估计处理效应的偏倚增⼤。卡钳值的设定⽬前还没有统⼀的标准,在实际研究中,研究者选⽤了不同的卡钳值进⾏分析。卡钳匹配是倾向得分的医学研究中最为常见的匹配⽅法。卡钳的设定会影响匹配集的样本量,卡钳值越⼤,能够完成匹配的个体越多,匹配集样本量就越⼤,但是可能会产⽣⼀些不良匹配,也就是倾向得分差值较⼤的处理组和对照
组研究对象形成匹配,会增⼤估计处理效应的偏倚;反之,卡钳设置过⼩,匹配后的样本均衡性会更好,但是匹配集样本量会变⼩,降低估计处理效应的准确性。卡钳的设定⼀直没有⼀个统⼀的标准。在实际研究中,研究者选⽤了不同的卡值,如 M urray 等在有关疗养院⼊院者的康复治疗研究中,卡钳值选⽤的是 0.2;S eeger 等在关于急性⼼肌梗塞的队列研究中,卡钳值选⽤的是 0.01;C hristakis 等有关于健康保健的研究中,卡钳值选⽤的是 0.005。C ochran 和 Rubin 研究证明,卡钳值取倾向得分标准差的 60%可以减少 86%~91%的偏倚,取倾向得分标准差的 20%可以减少 98%~99%的偏倚。A ustin 等总结了以往两分组资料中倾向得分匹配法研究⽤到的 8 种卡钳值,⽐较这些卡钳值在估计处理效应时的精度和偏度,模拟结果提⽰最优卡钳值是 0.02、0.03 或者是倾向得分经过 l ogit 变换后标准差的 20% [20] 。局部最优匹配法还存在是否允许放回的问题。所谓允许放回,指在匹配过程中允许重复利⽤研究对象,即配对后的研究对象允许参加下⼀个配对。允许放回使匹配数据集在局部最优匹配法的条件下,组间倾向得分差异总体上达到最⼩化。
◆◆◆◆