因果表征学习最新综述:连接因果科学和机器学习的桥梁
导语
处于信息时代的我们,有幸经历了轰轰烈烈的以数据为中⼼的⼤数据⾰命(涉及机器学习,深度学习及其应⽤,例如Alpha-Go, GPT-3, ⾃动驾驶等),深刻改变了我们⽣活的⽅⽅⾯⾯。如今另外⼀场相对不那么⼴为⼈知,但是同样重要的因果⾰命正在进⾏,它以因果科学中⼼并席卷了各个领域,尤其是⼈⼯智能。近⽇,⼀篇探索让 AI 系统攀登因果之梯的深刻综述⽂章“Torwards Causal Reprentation Learning”引起了⼤家⼴泛的关注。该⽂章可以视作 Bernhard Schölkopf 2019 年的 Judea Pearl 亲⾃点赞⽂章 “Causality for Machine Learning ”的姐妹篇,并且结合了 Yoshua Bengio 等⼈在表征学习上的深度思考,是因果结合机器学习的必读佳作,是2021年因果表征学习的第⼀课。
异界攻略
集智俱乐部联合智源社区,组织因果科学系列读书会第⼆季,从基础和实操⾓度出发,精读两本因果科学⽅向的⼊门教材。详情见⽂末。
蔡⼼宇| 作者
龚鹤扬、陆超超| 审校
邓⼀雪| 编辑
Towards Causal Reprentation Learning
这篇名为Towards Causal Reprentation Learning的综述⽂章由因果领域领军⼈物马普智能系统所所长Bernhard
这篇名为Towards Causal Reprentation Learning的综述⽂章由因果领域领军⼈物马普智能系统所所长Bernhard
Schölkopf及深度学习三巨头之⼀的Yoshua Bengio等⼈撰写。顾名思义,何为因果表征causal reprentation呢?其⼜拥有怎样优良的性质使我们想要学习因果表征呢?
为了回答这些问题,让我们从表征学习说起。表征学习Reprentation Learning是机器学习中的重要问题,良好的表征是机器学习算法成功的重要条件;正因如此,近⼗年来深度学习借助神经⽹络强⼤
的表达能⼒、海量的数据以及强⼤的算⼒,⾃动地从数据中学习表征,取代了传统的⼈⼯制作的特征,取得了瞩⽬的成就。由深度学习三巨头之⼆的Yoshua Bengio和Yann LeCun牵头创办的深度学习顶会,即命名为国际学习表征会议International Conference on Learning Reprentations,⾜见表征学习的重要性。
尽管深度学习在近⼗年极⼤地推动了机器学习的发展,但是仍有许多问题亟待解决,例如将知识迁移到新问题上的能⼒。许多关键问题都可以归结为OOD(out-of-distribution)问题。因为统计学习模型需要独⽴同分布(i.i.d.)假设,若测试数据与训练数据来⾃不同的分布,统计学习模型往往会出错。然⽽在很多情况下,i.i.d.的假设是不成⽴的,⽽因果推断所研究的正是这样的情形:如何学习⼀个可以在不同分布下⼯作、蕴含因果机制的因果模型(Causal Model),并使⽤因果模型进⾏⼲预或反事实推断。
我们可以很⾃然地想到将因果推断的优点结合到机器学习中,然⽽现实没有这么容易。因果模型往往处理的是结构化的数据,并不能处理机器学习中常见的⾼维的低层次的原始数据,例如图像。为此,让我们回到最初的问题,因果表征即可理解为可以⽤于因果模型的表征,因果表征学习即为将图像这样的原始数据转化为可⽤于因果模型的结构化变量。因果表征学习就是连接因果科学与机器学习的桥梁,解决这⼀及相关问题,就可以很好的将因果推断与机器学习结合起来,构建下⼀代更强⼤的AI。
接下来,我们就跟随作者的思路,详细的探讨描述物理世界的不同模型的层次,统计模型与因果模型
的区别包括模型的能⼒相关的假设及挑战,学习因果模型所必需的独⽴因果机制原则,学习因果模型的⽅法,如何学习因果表征,以及从因果的⾓度重新审视了诸多机器学习的挑战并指出了因果带来的启⽰。
⼀、Level of causal modeling
谈及对⾃然现象建模,⾃然⽽然就可想到黄⾦标准——微分⽅程组。它根据时间的演变建模物理机制,可以让我们预测物理系统未来的⾏为,推断⼲预的效果以及预测变量间的统计相关性;还可以提供物理本质,让我们可以解读因果结构。
如果说微分⽅程是对物理系统全⾯详尽的表述,那么统计模型(Statistical Model)可被看作表⾯的粗糙的描述。它⽆法预测⼲预的效果,但是的优点在于通常可以从观察数据中学习,⽽前者通常需要专家来提出。因果建模则存在于这两个极端之间,它期望能够像物理模型⼀样预测⼲预的效果,但同时可以在⼀些假设下,通过数据驱动的⽅法找到这样的模型,来取代专家知识。
基于上⽂的表述,表⼀给出了模型的分类与层级,并且给出了分级的依据——越⾼层的模型拥有更多更强的能⼒,这些能⼒从低到⾼分别是:在i.i.d.条件下预测的能⼒,在分布偏移/⼲预下预测的能⼒,回答反事实问题的能⼒,是否蕴含物理本质。接下来⾸先讨论这些能⼒,并在下⼀个章节具体解析统计模型与因果模型的区别。具体地说,基于统计模型的机器学习模型只能建模相关关系,⽽相关关系
往往会随着数据分布的变化⽽变化;⽽因果模型所建模的因果关系则是更本质的,反应数据⽣成机制的关系,这样的关系是更鲁棒的,具有OOD泛化的能⼒。
在独⽴同分布条件下预测的能⼒
除湿白带丸统计模型只是对现实的粗浅描述,因为它们只关注关联关系。对于样本和标签,我们可以通过估计来回答这样的问题:“这张特定照⽚中中有狗的概率是多少?”,“给定⼀些症状,⼼⼒衰竭的概率是多少?”。这样的问题是可以通过观察⾜够多的 )产⽣的i.i.d.数据来回答的。尽管机器学习算法可以把这些事做的很好,但是准确的预测对于我们的决策是不够,⽽因果科学提供了⼀个尚未完全探索的补充。举例来说,鹳出现的频率是和欧洲的⼈⼝出⽣率正相关的,我们的确可以训练⼀个统计学习模型来通过鹳的频率预测出⽣率,但显然这两者并没有什么直接的因果关系。统计模型只有在i.i.d.的情况下才是准确的,如果我们做任何的⼲预来改变数据分布,就会导致统计学习模型出错。
在分布偏移/⼲预条件下预测的能⼒
我们进⼀步讨论⼲预问题,它是更具挑战性的,因为⼲预会使我们跳出统计学习中i.i.d.的假设。继续⽤鹳的例⼦,“在⼀个国家中增加鹳的数量会增加该国的出⽣率吗?”就是⼀个⼲预问题。显然,⼈为的⼲预会使得数据分布发⽣变化,统计学习依赖的条件就会被打破,所以它会失效;另⼀⽅⾯,如果我们可以在⼲预的情况下学习⼀个预测模型,那么这有可能让我们得到⼀个对现实环境中的分布变化鲁棒的模型。实际上这⾥所谓的⼲预并不是什么新鲜事,很多事情本⾝就是随时间变化的,例如⼈的兴趣偏好,或者模型的训练集与测试集本⾝就有分布的不匹配。对神经⽹络的鲁棒性,已经有越来越多的关注,成为了⼀个与因果推断紧密连接的研究话题。作者认为对于在分布偏移下预测的研究不能只局限于在测试集上取得⾼准确率,如果我们希望在实际决策中使⽤学习算法,那么我们必须相信在实验条件改变的情况下,模型的预测也是有效的。笔者认为,作者在此处的意思是,实际应⽤中的分布偏移是任意多样的,仅仅在某些测试集上取得好效果不能代表我们可以在任何情况下都信任该模型,它可能只是恰好符合这些测试集的偏置。
为了使我们可以在尽可能多的情况下信任预测模型,就要采⽤具有回答⼲预问题能⼒的模型,⾄少统计学习模型是不⾏的。
培训总结模板回答反事实问题的能⼒
反事实问题涉及到推理事情为什么会发⽣,想象不同⾏为的后果,并由此可以决定采取何种⾏为来达
到期望的结果。回答反事实问题更加困难的,但也是对于AI⾮常关键的挑战。如果⼀个⼲预问题是“如果我们说服⼀个病⼈规律的锻炼,那么它⼼⼒衰竭的概率会如何变化?”,那么对应的反事实问题就是“如果这个已经⼼⼒衰竭的病⼈⼀年前就开始锻炼,那他还会⼼⼒衰竭吗?”。显然回答这样的反事实问题对于强化学习中的智能体是很重要的,它们可以通过反思⾃⼰的决策,制定假说,再通过实践验证,就像我们的科学研究⼀样。
数据的特点:观察的—⼲预的,结构化的-⾮结构化的
数据的形式往往决定了我们可以推断什么样的关系。作者将数据分为两个维度:观察的与因果的,⼈⼯总结的(结构化的)与原始的(⾮结构化的)。
•观察的与⼲预的数据
⼀个极端情况是,我们常假设的从同⼀个分布中i.i.d.采样的观察数据,但这样的条件很少能被严格的满⾜;另⼀个极端是在已知的不同的⼲预下的产⽣的数据。在这两者之间,是偏移或者⼲预未知的数据。
•结构化的与⾮结构化的数据
在传统的AI中,数据常被假设为⾼层有语义的结构化变量,它们有些可能对应着潜在图中的因果变量。
⽽⾮结构化原始数据是指那些⽆法直接提供因果信息的数据,例如图像。
尽管统计模型⽐因果模型要弱,但是它们可以同时有效地在结构化或者⾮结构化学习。另⼀⽅⾯,尽管只从观察数据中学习因果关系的⽅法是存在的,但常常还是需要从多个环境中收集数据,或者需要能够做⼲预。⾄此,我们已经可以⼀窥问题的核⼼:因果模型具有回答⼲预问题和反事实问题的能⼒,然⽽只能⽤于结构化的数据,ML模型虽然可以从raw data中有效的学习,但却逃不出i.i.d.设定的桎梏,那么如何将两者结合,使机器学习突破当前的瓶颈呢?答案即如本⽂题⽬所⾔ Towards Causal Reprentation Learning!因果表征学习,即从⾮结构化的数据中提取出可以⽤于因果推断的结构化变量。⼀⾔以蔽之,如果解决了因果表征学习的问题,就克服了因果推断领域和机器学习领域间的最关键障碍,就可构建下⼀代更强⼤的AI。
愿景虽好,脚踏实地才可为其提供保证,在接下来的章节中,作者⼀步⼀个脚印地介绍了因果模型和相关假设及挑战、估计因果关系的必要机制、传统的和与神经⽹络结合的因果发现⽅法、学习因果变量(表征)的关键问题,最后⽤因果的语⾔讨论了对机器学习领域诸多问题的启⽰。
mu是什么航空公司⼆、因果模型和推断独⽴同分布数据驱动的⽅法
我们还是从传统机器学习模型谈起,机器学习的成功有4个重要的因素:(1)⼤量基于模拟器或⼈⼯标注的数据,(2)强⼤的机器学习系统,如神经⽹络,(3)⾼性能计算系统,这对因果推断也⾄关重要,(4)
问题是i.i.d.的。
对于i.i.d.的数据,统计学习理论对模型提供了强⼤的保证,因此取得超越⼈类的表现也不⾜为奇。但是却在对⼈类很简单的不满⾜i.i.d.的情景下表现很差,即在不同问题间迁移的能⼒。
单的不满⾜i.i.d.的情景下表现很差,即在不同问题间迁移的能⼒。
川贝怎么吃止咳效果好为了进⼀步理解,i.i.d.带来的问题,让我们考虑下⾯的例⼦。Alice在想在⽹上买⼀个笔记本电脑包,⽹上商店的推荐系统于是向Alice推荐了笔记本电脑。这个推荐看起来很不合理,因为很可能Alice是已经买了电脑才去买包。假设该⽹站推荐系统使⽤统计模型仅仅基于统计相关性来推荐,那么我们已知事件“Alice买了包”对于事件“Alice是否会买电脑”的不确定性减少,和已知事件“Alice买了电脑”对于事件“Alice是否会买包”的不确定性减少是相等的,都为两个随机事件的互信息。这就导致我们丢失了重要的⽅向信息,即买电脑往往导致买包。
The Reichenbach Principle:从统计到因果
说了这么多,如何实现从统计相关到因果的跨越呢?Reichenbach清晰的阐述了⼆者的联系:
Common Cau Principle :如果两个可观察量和是统计相关的,那么⼀定存在⼀个变量因果的影响和,并且可以解释它们之间全部的相关性,即给定,和是条件独⽴的。
这⾥需要注意的是,上述原理包含Z与X或Y重合的特殊情况。沿⽤前⽂鹳的例⼦,鹳的频率为X,出⽣率为Y,⼆者统计相关。如果鹳能带来孩⼦则是,孩⼦会吸引鹳则是,有其他因素导致两者则为。没有额外的假设,我们不能从观察数据中根据统计相关性区分这三种情况,所以因果模型⽐统计模型包含更多信息。
尽管只有两个变量情况下的因果发现很困难,但是在有更多变量的情况下则会简单很多,因为多变量情况下,因果图会蕴含更多条件独⽴性质。这会将Reichenbach Principle推⼴到接下来介绍的因果图模型或结构因果模型。
结构因果模型
结构因果模型(Structural causal models, SCM),是考虑⼀系列变量作为有向⽆环图(DAG)的顶点,每个变量值都由如下结构⽅程赋予
(1)
其中为确定型⽅程,依赖于的⽗母( ),为⽆法解释的随机变量。因此在数学上,也是随机变量。图中的有向边代表直接的因果效应。噪声的存在使得上式可以表⽰成通⽤的条件概率的形式,并且是相互独⽴的,否则根据Common Cau Principle还存在其他变量造成了他们的相关性,这代表我们的模型不是因果充分的(因果充分性假设)。
如果我们确定了的分布,那么就可以根据上述DAG结合因果马尔可夫性计算联合分布。
•因果图模型
上述的DAG(被称为因果图,Causal Graph),以及噪声的独⽴性蕴含了联合分布的规范分解,称之为因果(解耦)分解,(causal(dintangled) factorization)
(2)
当然其他的纠缠分解(entangeld factorization)也可能是成⽴的,例如
医学导论(3)
相⽐来说,因果分解可以把联合分布表⽰为因果机制的乘积。
•隐变量和混淆因⼦
上述的图模型其实需要⼀个因果充分性假设,即不存在未观察到的共同原因变量。若该假设不满⾜,则会让因果推断变得很困难。因为它可能会让两个因果⽆关的可观测变量产⽣统计相关性,或者它们之间的因果关系被混淆因⼦的所污染( 是因,⽽是的共因,则被称为混淆因⼦(confounder))。这些是因果推断领域的重要问题,在此不多赘述。
•⼲预
所谓⼲预,即为修改SCM(1)中结构⽅程的⼀部分,例如改变,设置 (即 )为定值,或者改变的函数形式。
人的起源
统计模型,因果图模型,结构因果模型的区别
统计模型也可以被定义成⼀个图(例如贝叶斯⽹络),图中变量的概率分布与因果图模型⼀样可以根据因果马尔可夫性进⾏分解,但这样的模型中的边并不⼀定是因果的。只依赖于统计独⽴性,⽆法分辨马尔可夫等价类,和,因为他们依赖同样的条件独⽴。故因果马尔可夫条件是不⾜以⽤来进⾏因果发现的。
另外如图1所⽰,因果图模型允许计算⼲预的分布,当⼀个变量被⼲预时,就把它设为固定值,并且切断与其⽗母节点的边,在新的图中计算出的即为该⼲预的分布。
结构因果模型则包含因果变量和带有独⽴噪声的结构⽅程,也可以计算⼲预分布,因为他可以表达成因果图模型的概率分解的形式;也可以进⾏反事实推理。在进⾏反事实推理的时候,我们需要噪声变量的值固定。
⼩结⼀下,统计学习的概念基础是联合分布,期望通过特定模型在i.i.d.情况下学习。因果学习(发现)需
要考虑更多的假设,希望把联合分布进⾏因果分解,当得到因果模型后,就可以进⾏⼲预或反事实推理。
三、独⽴因果机制
那么如何保证因果模型对联合分布分解是有意义的呢?在噪声独⽴的情况下,根据因果图对联合分布进⾏因果分解(4)总是可⾏的,为此我们需要考虑与(4)中因⼦的独⽴机制。
让我们考虑海拔与年平均⽓温的例⼦。和显然相关,因为我们认为海拔升⾼会导致温度降低。假设我
们有两个数据集分别来⾃瑞⼠和奥地利,两个联合分布是不同的,因为边际分布不同。但是条件概率很可能⼤致不变,因为它蕴含了海拔对⽓温影响的物理机制。因果分解包含了可以在不同国家泛化的,⽽纠缠分解则不具有这样的鲁棒性。当我们考虑到这也同时成⽴。对因果模型来说(1)(2),对任意变量或模块、的⼲预不会影响其他模块,即为独⽴因果机制原则(Independent Causal Mechanisms Principle, ICM Principle):
⼀个系统的变量的因果⽣成过程使由⼀系列⾃主模块构成,它们不会影响彼此,也⽆法提供彼此的信息
(a)改变(⼲预)⼀个机制不会改变其他机制
(b)知道其他机制不会提供的任何信息
涂磊简介作者进⼀步提出了与ICM的(a)中相符的**稀疏机制偏移(Spar Mechanism Shift, SMS)**假说:
微⼩的分布改变⼀般是稀疏地或局部地体现在因果分解(2)中,即它们通常不会同时影响所有的机制
相反,如果我们考虑⾮因果的分解,例如(3),那么⼤多数机制,即使不是全部会被同时影响。SMS假说近期已经被⽤来学习因果模型、模块化结构和解耦表征。