倾向性评分(propensityscore,PS)
随机对照实验是推断因果关系的⾦标准,即通过随机化过程对所有的基线因素进⾏平衡。也就是说,在满⾜⼊选条件的病⼈中,他们是否接受治疗是通过完全随机化决定的。 因此观察到的病⼈结局的差异⼀定是与治疗与否所导致的。在观察性队列研究中,是否接受治疗并⾮随机化决定的,即病⼈是否接受治疗可能是由于病⼈基线⽔平或者其预后所决定的。 因此直接⽐较不同治疗组病⼈的结局并不能推导出治疗与病⼈预后的因果关系,即分析中引⼊了混杂因素。
定义:
倾向性评分就是运⽤病⼈的基线条件来评估其接受治疗的概率,即根据患者的特征、治疗医师和临床环境,患者接受感兴趣治疗的概率。那么如果两个病⼈具有相同的PS,那么他们的基线情况就是相近的,是否接受治疗就是‘随机’的。 通过这样的⽅式选择出来的病⼈就可以当作是接近于随机化实验的。进⽽病⼈预后的⽐较就更加接近于因果关系的推倒。
'基线因素' :在时间顺序上是发⽣在接受治疗之前的因素
※⽬的:
PS的最终⽬的是消除混杂因素(confounding factors),因此基线因素的选择⼀定是要以其对实验结果
(endpoint) 的影响为主要依据,⽽并⾮是否接受治疗
相应的,由于我们的最终⽬的是找到在两个治疗组中PS相似的病⼈,因此 PS model 的选择并⾮以 high predictive value 作为主要依据。通常PS model 的 AUC 以0.6-0.8 为宜。Perfect treatment distinction 意味着两种病⼈没有可⽐性。
※变量选择:
因变量⾃然就是病⼈接受了何种治疗⽅式
⾃变量要选择与相关结局事件有关的变量。⼀般分为两种⽅式:研究者定义 和 数据主导 的⽅式。对于研究者定义的⽅式,若实验数据来⾃临床实验或者临床注册研究,那么基线数据通常是实验收集的变量,若来⾃真实世界数据,可以通过因果关系图(DAG)的⽅式来定义。对于数据主导的变量选择,可以通过 High-dimensional PS (Hd PS) 的⽅式来对各种变量根据其对实验结局的关联程度进⾏排序和选择。因为propensity score本质上是指样本被施加treatment的概率,因此也有理论证明只需要包含影响treatment assignment的变量即可。
⼀般包含以下四个⽅⾯:
(1)所有测量的基线协变量
(2)所有与治疗分配相关的基线协变量
(3)影响结果的所有协变量 (潜在的混杂因素)
(4)所有影响治疗分配和结果的协变量 (真正的混杂因素)
※⽅法:
1.倾向评分匹配(propensity score matching,PSM):
是使⽤最⼴泛的⼀种倾向性评分⽅法,⼜以1:1近邻匹配被使⽤最⼴泛。⼀般在筛选好⼈群之后或者在数据库挖掘⼈群信息使⽤倾向性评分匹配。以最常使⽤的1:1近邻匹配(亦被称为greedy 贪婪匹配)为例,每名接受治疗A的患者逐⼀与倾向性评分最为接近的接受治疗B的患者匹配,在这个范围内没有匹配的患者被排除在外。
缺点:当我们以暴露组的样本量去匹配对照组,⽽对照组的样本量⼜是暴露组的好⼏倍,此时往往会在匹配后造成样本量的损失。如果损失的病例数太多,则不能排除匹配造成的选择性偏移。此外还有匹配的变量必须是已知的等等。
实现细节:
(1)采样⼿段:可重复和不可重复:without replacement v.s. with replacement
在可重复模式下,同⼀个对照组样本可能会出现在多个pair对中,即我们构造的数据中存在⼤量重复样本,此时需要考虑⽅差估计的问题(是否会出现过拟合);在不可重复模式下,对照组样本⼀旦被某个实验组样本匹配后便不再使⽤。
(2)匹配⽅式:贪婪greedy v.s. 最佳optimal
贪婪匹配时实验组样本是随机选择的,然后从对照组中选择与当前实验组样本score最接近的样本,即使这个对照组样本与后⾯某个实验组样本更合适。
最佳匹配形成pair的过程是minimize the total within-pair difference of propensity score最⼩化倾向性得分的配对内总差异,即全局优化。但是这两者在⽣成平衡匹配样本(balanced matched samples)上效果基本相当。
(3)相似度度量:Nearest Neighbor v.s Caliper distance
nearest neighbor matching就是在选择score与当前treated样本最接近的untreated样本,当有多个同距离的untreated样本时,随机选择⼀个即可。但是这种⽅法并没有对最⼤可接受的距离做限制,因此⽆法保证选出的untreated样本就是好的。
nearest neighbor matching within a specified caliper distance相⽐于前者就是增加了⼀个caliper distance的限制,即对于给定的
treated样本,先圈定这个样本的caliper distance范围,接着在这个范围中去寻找score最近的untreated样本,如果没有的话,当前treated样本就被丢弃。可以看到caliper distance的⽅法更注重样本的质量。
对于caliper width(即我们最多能接⼤能接受的距离范围)的设定⽬前还没有统⼀的标准。有⼀种⽅法是选择和logit of propensity score的标准差成⽐例的caliper distance(有理论证明logit of propensity score⼤概率是服从正态分布的)。假设treated和untreated样本中的propensity score同⽅差,使⽤总体样本的标准差*0.2作为caliper width可以减少confounders带来的bias。
(4)匹配数量:⼀对⼀vs多对⼀(m:1)
m个untreated样本与1个treated样本匹配,对于不同的treated样本,m也是可变的;相⽐于固定的m,动态的m值可以带来bias reduction。Full matching指⼀个treated和⾄少⼀个untreated,或者⼀个untreated和⾄少⼀个treated样本。
2.倾向性评分加权法(propensity score weighting,PSW):
逆处理概率加权法( Inver Probability of Treatment Weighting Using the Propensity Score,IPTW):是使⽤propensity score来对样本进⾏加权从⽽⽣成同分布的synthetic sample.倾向性评分加权法是⼀种基于个体化的标准化法。
3.倾向评分的分层(Stratification on the Propensity Score,SPS):
SPS指的就是根据样本的propensity score进⾏分层。先对样本的propensity score进⾏排序,然后对样本分桶。常见的⼀种做法是等频分成5个桶。当然,随着分桶数的增多,桶内样本的相似度会增⼤,桶间样本的相似度会减少,可以带来进⼀步bias reduction的收益。
4.使⽤倾向评分进⾏协变量调整(Covariate Adjustment Using the Propensity Score)
是这四种⽅法中唯⼀⼀个需要额外建模的⽅法。它本质上是做了⼀个线性回归(outcome是binary时候使⽤逻辑回归),模型的X是treatment status+propensity score,Y是outcome。此时treatment的效应就是由回归的系数所决定。
※验证
从propensity score本质出发,它是⼀个balancing score,因此理论上当我们能够充分学习到样本的propensity score,那么具有相同score 的样本应该在协变量的分布上是⼀致的。反之,在给定propen
sity score下,treatment和untreatment组之间的协变量分布仍然存在显著差异的话,说明score学的不好。
可参考⽂献::
An Introduction to Propensity Score Methods for Reducing the Effects of Confounding in Obrvational Studies.