【因果推断论⽂】中国新冠死亡率更⾼?-新冠死亡率的⾟普森
悖论
Simpson's paradox in Covid-19 ca fatality rates: a mediation analysis of age-related causal effects
Authors: Julius von Kügelgen , Luigi Grele , and Bernhard Schölkopf
IEEE Trans on AI 2021,德国马克斯·普朗克智能系统研究所,剑桥⼤学
⽬录
0. 前⾔
本⽂是第⼀个将因果推断⽅法引⼊新冠研究领域的论⽂,在获得相关数据之后,本⽂的⽅法可以被应⽤到更复杂的数据中去,本⽂也为进⼀步理解新冠死亡率背后的机制提供了⼀个⽅便和透明的因果框架。
读这篇⽂章是为了看⼀下定量做因果分析的⽅法,以及总体效应和直接、间接效应的关系。
1. 问题背景和研究⽬标
从2019年12⽉武汉疫情爆发开始,新冠病毒迅速在全球蔓延开来,造成了数亿的感染和上百万的死亡病例。在新冠相关的数据中,死亡率是⼀项重要指标。由于死亡率与年龄⾼度相关,因此通常会分年龄段来研究死亡率。但是,统计学⽅法可能会造成⼀些悖论,例如本⽂分析的中国和意⼤利新冠死亡率数据中的⾟普森悖论——中国各年龄段的死亡率都⾼于意⼤利,但总体死亡率却⽐意⼤利低。
本⽂⽤因果推断的⽅法研究各个国家、新冠死亡率、年龄分布之间的关系,尤其是分析了感染者年龄作为中介变量对新冠死亡率的间接影响,为政策制定提供⽀撑,为后续更复杂数据上的研究打下基础。
2. 中国和意⼤利死亡率数据中的⾟普森悖论
当⽐较中国和意⼤利两国的新冠死亡率数据时,会发现,在所有年龄段上,意⼤利的死亡率都⽐中国低,但意⼤利的整体死亡率却⽐中国更⾼。如Fig 1 左图所⽰,蓝⾊条代表中国,橙⾊代表意⼤利。
这种现象被称为⾟普森悖论,在分组⽐较中都占优势的⼀⽅,在总评中有时反⽽是失势的⼀⽅。
⾟普森悖论产⽣的原因是:当我们关注各年龄段死亡率的⽐较时,忽略了两国感染⼈数分布的差异。如Fig 1右图所⽰,意⼤利的感染⼈群中,⽼年⼈占⽐较多,⽼年群体死亡率⽐较⾼;⽽中国的感染者
⼤部分是中青年⼈,这些⼈群的死亡率⽐较低。这导致在整体上,意⼤利的死亡率要⾼得多。
类似的现象还有:
在⽐较纽约和⾥⼠满两市1910年的肺结核死亡率时,也可以观察到,纽约的整体死亡率⽐较低,但如果按种族来划分⼈群,则纽约各个种族的肺结核死亡率都⽐⾥⼠满要⾼。
3. 新冠死亡率的因果模型
统计学只能发现变量之间的相关性,但相关并不是因果关系。不仅如此,统计学还缺乏因果的语⾔,⽆法表达和证明因果关系。从另⼀个⾓度讲,同⼀组数据,可以被不同的因果模型解释,因此,必须引⼊⼈类的领域知识来理解数据——建⽴因果模型。
3.1 因果模型中的变量
在本⽂中,我们引⼊⼀下三个变量:
国家(country,C)
年龄组(age group,A)
死亡率(fatality,F)
3.2 数据⽣成模型和因果图
本⽂只建模感染者死亡率,不建模感染过程。
因果图如下:
C \rightarrow A:国家会影响感染者的年龄分布
不同国家的⼈⼝年龄结构和社会情况不同
防疫政策对不同年龄的⼈影响是不同的
A \rightarrow F:感染者的年龄会影响感染者的死亡率
C \rightarrow F:不同国家的感染者死亡率不同
医疗条件不同,例如床位和呼吸机数量和价格
疫苗接种率不同
对现代医疗的接受程度不同
4 新冠死亡率的总体、直接和间接因果效应
这部分分析理论来⾃Pearl 2001年发表的⼀篇⽂章,参见,因果推断基础知识可以参考Causal-Inference-in-Statistics-A-Primer by Judea Pearl,我随后可能会写⼀下Rubin这本Causal Inference for Statistics, Social, and Biomedical Sciences的笔记。
【符号说明】
T:treatment,本⽂指选择哪个国家。
X:中介变量,本⽂指新冠感染者的年龄。
Y:结果变量,本⽂指感染者因新冠⽽死亡。
4.1 总体因果效应(Total Causal Effect, TCE)
关于总体因果效应的问题:
Q_{TCE}:如果将国家由中国换成意⼤利,新冠死亡率会有什么变化?
【Definition 1】(TCE)⼀个⼆元变量T对Y的总体因果效应被定义为:
\begin{equation} \begin{aligned} \operatorname{TCE}_{0 \rightarrow 1}=& \mathbb{E}_ {Y |do(T=1)}[Y \mid d o(T=1)] \\ &-\mathbb{E}_ {Y
|do(T=0)}[Y \mid do(T=0)] \end{aligned} \end{equation}
T对Y的总体因果效应被定义为两种⼲预结果的差值。
4.2 “为什么?” 新冠死亡率的中介效应分析
我们不满⾜于两个国家之间的总体差异,更感兴趣的是产⽣这些差异的原因。正如前⾯分析的,感染者年龄分布是影响死亡率的重要因素,但政府对感染者的年龄分布的控制措施很有限,因此我们希望将感染者年龄分布带来的死亡率差异和其他因素带来的差异区分开来。
从因果推断的⾓度,这是要将直接因果效应和间接因果效应分开。
4.3 控制直接效应(Controlled Direct Effect, CDE)
控制直接效应是指对中介变量进⾏⼲预,从⽽阻断中介因果路径,只保留直接效应。
⼀个关于控制直接效应的问题:
Q_{CDE(50-59)}:对于50-59岁的⼈来说,在中国和意⼤利感染新冠,哪个更安全?
相当于控制了中介变量为50-59岁
【Definition 2】(CDE)在中介变量X=x的条件下,⼆元变量T对Y的控制直接因果效应为:
\begin{equation} \begin{aligned} \operatorname{CDE}_{0 \rightarrow 1}(x)=& \mathbb{E}[Y \mid d o(T=1, X=x)] \\ &-\mathbb{E}[Y \mid d
o(T=0, X=x)] \end{aligned} \end{equation}
控制直接效应中,中介变量的取值是⼈为定义的,不能代表整个⼈群的情况。我们更感兴趣的是,在真实的感染者年龄分布下,两个国家之间的差异,即⾃然效应。
4.4 ⾃然直接效应(Natural Direct Effect, NDE)
⾃然直接效应研究的是,保持中介变量在治疗前的状态,则接受治疗后,变量Y有什么变化。
⼀个关于⾃然直接效应的问题:
Q_{NDE}:如果意⼤利的感染者年龄分布像中国那样,意⼤利的死亡率会⽐中国的⾼还是低?(两个国家之间⽐)
【Definition 3】(NDE)已知中介变量为X,⼆元变量T对Y的控制直接因果效应为:
\begin{equation} \begin{aligned} \operatorname{NDE}_{0 \rightarrow 1}= \mathbb{E}[Y_{X(0)} \mid do(T=1)] - \mathbb{E}[Y \mid do(T=0)] \end{aligned} \end{equation}
其中X(0)表⽰T=0时,X的分布。
4.5 ⾃然间接效应(Natural Indirect Effect,NIE)
⾃然间接效应是指,如果中介变量变为治疗后的值,但不进⾏治疗,此时变量Y有什么变化。
⼀个关于⾃然间接效应的问题:
Q_{NIE}:如果中国的感染者年龄分布变成意⼤利的分布,中国的新冠死亡率会有什么变化?(中国和中国⾃⼰⽐)
【Definition 4】(NIE)已知中介变量为X,⼆元变量T对Y的⾃然间接因果效应为:
\begin{equation} \begin{aligned} \operatorname{NIE}_{0 \rightarrow 1}= \mathbb{E}[Y_{X(1)} \mid do(T=0)] - \mathbb{E}[Y \mid do(T=0)]
\end{aligned} \end{equation}
4.6 中介公式(Mediation Formulas)
在本⽂假设的因果图中,可以将(1)-(4)中的因果量转化为如下统计量:
\begin{align} &\operatorname{TCE}_{0\to1}^{\mathrm{obs}}=\operatorname{E}[Y|T=1] -\operatorname{E}[Y|T=0]\\ &
{\operatorname{CDE}_{0\to1}^{\mathrm{obs}}(x)=\operatorname{E}[Y|T=1,X=x]-\operatorname{E}[Y|T=0,X=x]} \\ &
{\operatorname{NDE}_{0\to1}^{\mathrm{obs}}=\sum_{x}P\left(X=x|T=0\right)\left(\mathrm{E}[Y|T=1,X=x]{-\mathrm{E}[Y=0,X=x]}\right)}\\ & {\operatorname{NIE}_{0\to1}^{\mathrm{obs}}=\sum_{x}(P(X=x|T=1) - P(X=x|T=0))\mathrm{E}[Y|T=0,X=x]} \end{align}
可以通过(5)-(8)中的统计量,在观测数据中计算总体、直接和间接因果效应。
4.7 总体效应、⾃然直接效应和⾃然间接效应之间的关系(TCE, NDE and NIE)
总体效应可以被分解为⾃然直接效应和⾃然间接效应吗?
在线性模型中,答案是肯定的
但包括本⽂的模型在内的⼤多数模型都是⾮线性模型,直接效应和间接效应不是独⽴的,⽽是互相依赖的。
例如,⼀个药物A(Treatment),其起作⽤需要借助于激活体内的某种蛋⽩质(中介),即,只有药物A,没有蛋⽩质,药物⽆效;只有这种蛋⽩质,没有药物A,药物也⽆效
在这种情况下,⾃然直接效应和⾃然间接效应都是0,但总体效应不是0。
值得⼀提的是,控制直接效应可以不是0,因为可以⼲预蛋⽩质的量(实际上可能没有⼲预的⼿段)。
5. 年龄分布对国别和新冠死亡率的中介效应分析
这部分对总体效应、⾃然直接效应和⾃然间接效应做定量分析。
5.1 数据集
本⽂收集了来⾃11个国家和钻⽯公主号上的新冠感染者数据,包括各个年龄段的感染者⼈数和死亡率。数据集包含756, 044个感染者和68 508个死亡病例,总体死亡率9.06%。
5.2 因果效应随时间的变化
利⽤第四部分得出的公式,计算:如果国别从中国变到意⼤利,对死亡率的因果效应在不同时间段有什么变化(以周为单位)。在研究时段内,中国的病例数和死亡率⽐较稳定,因此这些变化主要来⾃于意⼤利情况的变化。
总体效应(TCE)逐渐上升,说明意⼤利的总体死亡率相⽐中国在逐步上升。
⾃然直接效应(NDE)——如果病例年龄分布都是中国这样,意⼤利的死亡率会⽐中国⾼多少——⼀开始是负的,说明如果去除年龄分布的影响,⼀开始意⼤利的死亡率是要⽐中国低的。但是从三⽉中旬开始,NDE就变成正值,并逐步提升,与此同时,意⼤利的医疗系统开始超负荷运转。直到四⽉中旬,NDE才稳定下来。
⾃然间接效应(NIE)——如果中国的病例年龄分布变为意⼤利的分布,中国的新冠死亡率有什么变化——维持了⼀个⽐较⼤的正值,⼤约在3%到3.5%之间。
总的来说,NIE对TCE的贡献⽐较稳定,⼀直都⽐较⼤;⽽TCE随时间的变化主要是由NDE的变化导致的。
第⼆部分提到的中意两国新冠死亡率的⾟普森悖论,是由于在三⽉上旬,NDE和NIE的符号不同。
值得⼀提的是,NDE+NIE \not = TCE。
5.3 多个国家之间的⽐较
计算不同国家之间的NDE和NIE,得到下图:
由于这是⼀个⾮线性模型,可以看到,NDE(t,t^*;Y)\not = NDE(t^*,t;Y),NIE同理。
NDE⽅⾯,钻⽯公主号、中国、葡萄⽛、南⾮表现较好。
NDE可以反映各国的医疗等措施的有效性
NIE⽅⾯,南⾮、哥伦⽐亚等国表现较好,钻⽯公主号最差。
NIE主要反映感染者年龄分布对死亡率的影响。
国家在NDE和NIE两个指标上的排名没什么相关性,说明国家的防疫措施和感染者年龄分布关系不⼤。
国家的⼈⼝年龄分布和NIE有很强的相关性,说明各国没能出台有效的针对不同年龄⼈⼝的防疫措施。
在132对国家组合中,64对⾥⾯,NDE和NIE的符号是不同的,这会导致⾟普森悖论。这说明,只关注每个国家总体的新冠死亡率是不全⾯的,不能很好地反映国家防疫措施的有效性,还应该考虑国家的⼈⼝年龄结构等因素。
6. 本⽂的局限性和未来⼯作
本⽂设计的因果图还⽐较粗糙,可以引⼊更多中介变量,例如疫苗接种量等。
不同国家的检测策略不同,不同年龄组由于症状严重性不同,检测⽐例可能也不同。因此,只分析确诊者的数据,可能会产⽣选择偏差。
本⽂只分析了公布了相关数据的国家,⽽这些国家可能是受新冠影响⽐较严重,政府⼜有能⼒收集并公布数据的国家。
感染和死亡有时间差,也会对结果的准确性造成影响。
⼀些想法
我认为5.2最后对⾟普森悖论的解释,应该是因为NDE和TCE的符号不同。
NDE是负值使得意⼤利各个年龄段的死亡率都⽐较低。
TCE是正值导致意⼤利总体死亡率⽐较⾼。
NIE是正值且⽐较⼤,这是TCE是正值的主要原因。
但如果NIE是正值但是⽐较⼩,⽆法抵消NDE的负值,则TCE可能是负值,则不构成⾟普森悖论。因此我认为⾟普森悖论
的解释应该是NDE和TCE的符号不同。
这篇⽂章在20年5⽉就写完了第⼀版,因此收集的数据量不是很多。
参考⽂献
[18] J. Pearl, “Direct and indirect effects,” in Proc. 17th Conf. Uncertainty Artif. Intell., 2001, pp. 411–420
[55] J. Pearl et al. “External validity: From do-calculus to transportability across populations,” Statist. Sci., vol. 29, no. 4, pp. 579–595, 2014.
[56] E. Bareinboim and J. Pearl, “Causal inference and the data-fusion problem,” Proc. Nat. Acad. Sci. USA, vol. 113, no. 27, pp. 7345–7352, 2016.
Processing math: 0%