IPTW加权后的样本量
前⾔
近⽇有朋友在《统计咨询》公众号咨询:有些⽂章给出了逆概率加权后的样本量,是如何计算的?为了直观展⽰这个问题,⼩编找到了⼀篇JAMA的⽂章 (doi:10.1001/jama.2016.17396),下图为同⼀个研究三个不同处理下的样本量。Unweighted Sample 为原始样本量;Propensity Matching 为1:1配对后的样本量,能够匹配上的样本数量即样本量,这个容易理解;IPTW 为逆概率处理权重加权后的样本量,这个是怎么计算的呢?
IPTW的回顾
若组间的基线变量不均衡,除了匹配 (或倾向评分匹配) ,我们可以利⽤IPTW (逆概率处理加权) 的⽅法以期达到基线变量均衡。感兴趣的朋友可以查阅《统计咨询》公众号的往期⽂章:
IPTW加权后的样本量
对于加权的理解,⼤家可以类⽐SPSS软件中卡⽅检验进⾏的 Weighted Cas ,以四格表为例,左上⾓的a格⼦频数为13,软件则⽤频数13作为权重对a格⼦进⾏加权,表⽰a格⼦的情况样本量为13。基于同样的原理,某个样本的权重为wi,该样本原来贡献的样本量为1,⽽在IPTW分析中,它被当做wi个样本
处理。感兴趣的⼤家可以查阅以下⽂献(doi:10.1111/j.1524-4733.) ,该⽂献直接给出了与上述原理⼀致的公式。
上述⽂献还提到:
1.加权后的样本量往往⼤于原来的样本量,(Nw is always greater than N, the sample size of the original data)
2.加权后的样本量增⼤容易导致假阳性的出现,(Conquently, regression estimates with IPTWs tend to reject the
null hypothesis too frequently becau of inflated sample sizes)
3.采⽤稳健的IPTW可以降低假阳性的发⽣,(An improvement to the inver probability of treatment weighting is the
u of stabilized weights)