知识图谱⽂献综述(第四章实体关系学习)
1. 任务定义、⽬标和研究意义
关系定义为两个或多个实体之间的某种联系,实体关系学习就是⾃动从⽂本 中检测和识别出实体之间具有的某种语义关系,也称为关系抽取。关系抽取的输 出通常是⼀个三元组(实体 1,关系,实体 2)。例如,句⼦“北京是中国的⾸都、 政治中⼼和⽂化中⼼”中表述的关系可以表⽰为(中国,⾸都,北京),(中国, 政治中⼼,北京)和(中国,⽂化中⼼,北京)。
关系抽取是知识图谱构建和信息抽取中的⼀个关键环节,具有重要的理论意 义和⼴阔的应⽤前景,为多种应⽤提供重要的⽀持,主要表现在:
(1)⼤规模知识图谱的⾃动构建。很多互联⽹应⽤都需要知识图谱的⽀撑, 这个知识图谱不仅包含 WordNet、HowNet 等常识知识图谱中的通⽤语义知识, ⽽且包含百科全书、领域知识图谱中的领域语义知识。如果能把多源异构知识集 成为⼀个⼤的知识图谱,将可能提⾼很多互联⽹应⽤系统的性能,并开创语义⽹ 时代的很多应⽤。现有的知识图谱如 WordNet、HowNet 和 CYC 等⼤多数依靠专 家⼈⼯编撰。随着互联⽹的发展,知识呈爆炸式增长,⼈⼯构建知识图谱特别是 构建领域知识图谱时遇到了很⼤困难,不仅费时费⼒,⽽且存在知识覆盖率低、 数据稀疏和更新缓慢等问题。利⽤关系抽取技术,知识图谱可以根据结构化的抽 取结果⾃动⽣成。典型的例⼦有:Freeba、Yago 和 BDped
ia。
疏通的意思 (2)为其它信息获取技术提供⽀持。
1. 对信息检索提供⽀持:可以对复杂 的查询进⾏关联搜索和推理,提供智能检索结果。例如,对于“⾝⾼ 170 以上的 中国射⼿
座明星”,有了关系抽取技术的⽀持,通过知识图谱构建,就可以通过推理的⽅法获得结果。图 1 展⽰
了百度搜索引擎对“⾝⾼ 170 以上的中国射⼿座 明星”查询返回的结果,这个结果的背后就受到⼤规模知识图谱的⽀撑。
2. 对 问答系统提供⽀持:在问答中,关键步骤是建设⼀个领域⽆关的问答类型体系并 找出与问答类型体系中每个问答类型相对应风格英文
的答案模式,这就需要关系抽取技术 的⽀持。
(3) ⾃然语⾔理解。⽬前深层的语⾔理解系统在正确率和性能⽅⾯还难以令 ⼈满意,关系抽取是篇章理解的关键技术,运⽤语⾔处理技术可以对⽂本的核⼼ 内容进⾏理解,因此语义关系抽取的研究将成为从简单的⾃然语⾔处理技术到真 正的⾃然语⾔理解应⽤之间的⼀个重要纽带,能改进⾃然语⾔处理领域的很多任 务的性能,如实体链接和机器翻译等。
twenty twelve2. 研究内容和挑战
关系抽取系统处理各种⾮结构化/半结构化的⽂本输⼊(如新闻⽹页、商品 页⾯、微博、论坛页⾯等),使⽤多种技术(如规则⽅法、统计⽅法、知识挖掘 ⽅法),识别和发现各种预定义类别和开放类别的关系。根据关系类别是否预定 义,⽬前关系抽取的核⼼研究内容可以划分为限定域关系抽取和开放域关系抽取。 以下分别介绍具体的研究内容。
限定域关系抽取。限定域关系抽取是指系统所抽取的关系类别是预先定义好 的,⽐如知识图谱中定义好的关系类别。在限定域关系抽取中关系的类别⼀般是 ⼈⼯定义或者从现有知识图谱中⾃动获取。由于关系类别已经预先定义,所以⼀ 般可以⼈⼯或者基于启发式地规则⾃动构建标注语料。因此限定域关系抽取中的 主要研究内容是如何利⽤有监督或弱监督的⽅法抽取预定义的实体关系知识。在 有监督的⽅法中主要的研究内容集中在如何挖掘更多能表征相应语义关系的特 征上。在弱监督的⽅法中主要的研究内容集中在如何降低⾃动⽣成语料中的噪声。
开放域关系抽取。开放域关系抽取不预先定义抽取的关系类别,由系统⾃动 从⽂本中发现并抽取关系。因此开放域关系抽取也称为开放式关系发现。由于没 有事先定义关系的类别,因此开放域关系发现中利⽤关系指⽰词代表关系的类型。 主要的研究内容是如何利⽤⽆监督的⽅法⾃动的抽取关系三元组。
关系抽取⽬前主要⾯临如下三个挑战:
⾃然语⾔表达的多样性:关系抽取的核⼼是将⾃然语⾔表达的关系知识映射到关系三元组上。然⽽, ⾃然语⾔表达具有多样性和隐含性,导致关系抽取任务极具挑战性。⾃然语⾔表 达的多样性指的是同⼀种关系可以有多种表达⽅式,例如“总部位置”这个语义关 系可以⽤“X 的总部位于 Y”,“X 总部坐落于 Y”,“作为 X 的总部所在地,Y…” 等等不同的⽂本表达⽅式。⾃然语⾔表达的多样性是关系抽取的⼀⼤挑战。
关系表达的隐含性:关系表达的隐含性是指关系有时候在⽂本中找不到任何明确的标识,关系隐 含在⽂本中。例如:蒂姆·库克与中国移动董事长奚国华会⾯商谈“合作事宜”, 透露出了他将带领苹果公司进⼀步开拓中国市场的讯号。 在这⼀段⽂本中,并 没有直接给出蒂姆·库克和苹果公司的关系,但是从“带领苹果公司”的表达, 我们可以推断出蒂姆·库克是苹果公司的⾸席执⾏官(CEO)。
关系表达的隐含性 是关系抽取的⼀⼤挑战。
实体关系的复杂性:关系抽取的⽬标是抽取实体之间的语义关系,然⽽,真实世界中同⼀对实体 之间可能有多个关系,⽽且有的关系可以同时存在,⽽有的关系是具有时间特性 的。⽐如:中国和北京的关系有多个,北京坐落于中国,北京是中国的⾸都,北 京是中国的政治中⼼,北京是中国的⽂化中⼼。这些关系是可以同时存在的。但 是如果两个⼈本来是夫妻关系,后来离婚了,他们就不是夫妻关系了,是前妻或 者前夫的关系,这个类关系具有时空性,不能单独存在,实体关系的复杂性是关 系抽取的⼜⼀挑战。
3.2 基于规则的关系抽取和基于机器学习的关系抽取
3.2.1 基于规则的关系抽取
所谓基于规则的关系抽取⽅法是指⾸先由通晓语⾔学知识的专家根据抽取 任务的要求设计出⼀些包
含词汇、句法和语义特征的⼿⼯规则(或称为模式), 然后在⽂本分析的过程中寻找与这些模式相匹配的实例,从⽽推导出实体之间的 语义关系。如 [Fukumoto et
al.,1998]依据两个实体之间相关联的特定谓词来判断 它们之间的关系,不过其召回率太低,导致在 MUC-7 测试中 F 指数只有 39.1%。[Humphreys et al.,1998] 在篇章解释器(Discour Interpreter)中利⽤⼀系列句法 和语义规则识别出实体间的关系,其输⼊序列来源于增加了语义和指代等信息的 句法分析器。虽然它们的结构较为复杂,但在 MUC-7 的模板任务中 F 指数也分 别只有 23.7 和 54.7。[Aone et al.,1998] [Aone et al.,2000] 则充分利⽤语义关系的 局部性特点,在名词短语标注的过程中识别出短语的中⼼词和它的修饰词之间可能存在的关系,在 MUC-7 的模板关系任务中取得了 75.6 的最⾼ F 指数。 基于⼿⼯规则的⽅法需要领域专家构筑⼤规模的知识库,这不但需要有专业 技能的专家,也需要付出⼤量劳动,因此这种⽅法的代价很⼤。知识库构建完成 后,对于特定的领域的抽取具有较好的准确率,但移植到其他领域⼗分困难,效 果往往较差。因此这种⽅法在可移植性⽅⾯存在着明显的不⾜。
3.2.2 基于机器学习的关系抽取
按照机器学习⽅法对语料库的不同需求⼤致可分成三⼤类:⽆监督关系抽取, 有监督关系抽取、弱监督关系抽取。⽆监督关系抽取希望把表⽰相同关系的模版 聚合起来,不需要⼈⼯标注的数据。有监
督关系抽取使⽤⼈⼯标注的训练语料进 ⾏训练。有监督关系抽取⽬前可以取得最好的抽取效果,但是由于其需要费时费 ⼒的⼈⼯标注,因此难以扩展到⼤规模的场景下。因此有学者提出了利⽤知识库 回标⽂本来⾃动获得⼤量的弱监督数据。⽬前弱监督关系抽取是关系抽取领域的 ⼀⼤热点。
3.2.2.1 ⽆监督关系抽取
⽆监督关系抽取⽅法主要基于分布假设(Distributional Hypothesis[Harris et al.,1954]理论,分布假设的核⼼思想是:如果两个词的⽤法相似及出现在相同上 下⽂中,那么这两个词就意思相近。相应的,在实体关系抽取中,如果两个实体 对具有相似的语境,那么这两个实体对倾向于具有相同的语义关系,基于此理论, ⽆监督关系抽取将两个实体的上下⽂作为表征语义关系的特征。
基于分布假设理论,⾸先由 [Hagawa et al.,2004]提出了⼀种基于⽆监督学 习的实体关系发现⽅法,该⽅法将⼤量⽂本中同⼀实体对的所有上下⽂收集起来, 并把这些上下⽂作为表⽰语义关系的特征,然后采⽤层次聚类的⽅法将特征相似 度较⾼的实体对聚集在⼀起,最后从⼀个聚类中挑选出频率最⾼的词作为该类关 系的名称。业绩英文
[Chen et al.,2005] 对 Hagawa 的⽅法进⾏了改进,他们的⽅法将每 个实体对的上下⽂,⽽不是所有相同实体对的上下⽂,作为实体之间的语义关系 特征。在聚类时,先采⽤基于熵的⽅法对词汇特征进⾏排序,以提⾼特征集的空 间搜索效率。最后使⽤ Discriminative Category Matching(DCM)理
论[Fung et al.,2002]来衡量特征在某个聚类中的重要性。⽆监督关系抽取的核⼼是选取表⽰实体之间关系的特征,然后再聚类。上⽂ 介绍的⽅法主要选取上下⽂特征,与之不同的是,
[Bollegala et al.,2010]利⽤关系 的对偶性(Relation Duality),提出实体对空间和模板空间可以相互表⽰,基于这 个理论,使⽤协同聚类来发现实体对及其关系模板的聚类簇,从每个聚类的簇⾥ ⾯选择代表性的模板当作此簇对应的关系。另外,⽆监督关系抽取⾯临着关系聚 类簇中的多义问题,即同⼀个模板可能表达不同的关系,针对此问题,
[Yao et al.,2012]使⽤主题模型(Topic Model)将实体对及其对应的关系模板分配到不同 34 的语义类别上,然后再使⽤聚类的⽅法将这些语义类别映射到语义关系。 ⽆监督关系抽取⽅法可以发现新的关系,但其发现的新的关系往往是相似模 板的聚类,其缺点是得到的关系不具语义信息,难以规则化,很难被⽤来构建知 识库,如果需要得到语义关系,需要通过将其同现有知识库的关系进⾏对齐,或 者通过⼈⼯的⽅式来给每个聚类关系簇赋予语义信息。
3.2.2.2 有监督关系抽取
viable
在使⽤有监督的⽅法解决关系抽取问题时,⼀般将关系抽取看作是⼀个多分 类问题,提取特征向量后再使⽤有监督的分类器进⾏关系抽取,有监督的⽅法性 能较好[Zhou et al.,2005] [Mooney et al.,2006] [Bunescu et al.,2005] ,⽬前占据主 导地位,研究⼈员在这⽅⾯做了⼤量的⼯作。有监督关
系抽取可以分为:基于特 征向量的⽅法、基于核函数的⽅法和基于神经⽹络的⽅法。
基于特征向量的⽅法特点是需要显式地将关系实例转换成分类器可以接受 的特征向量,其研究重点在于怎样提取具有区分性的特征,通过获取各种有效的 词汇、句法和语义等特征,然后有效地集成起来,从⽽产⽣描述关系实例的各种 局部和全局特征。
⽂献[Kambhatla et al.,2004]中的⽅法综合考虑实体本⾝、实体 类型、依存树和解析树等特征,然后使⽤最⼤熵分类器判断实体间的关系。[Zhao et al.,2005]进⼀步将这些特征按照实体属性、⼆元属性、依存路径等类别进⾏划 分。
[Zhou et al.,2005]系统地研究了如何把包括基本词组块(Chunk)在内的各种 特征组合起来,探讨了各种语⾔特征对关系抽取性能的贡献,特别研究了 WordNet 和 Name List 等语义信息的影响。
[Wang et al.,2006]⼜进⼀步加⼊了从句 ⼦的简化准逻辑形式(SQLF,Simplified Quasi Logical Form)导出的谓词语义属 性,该属性定义了连接两个实体之间路径上的谓词序列,并且使⽤了多达 94 种 语⾔特征。
[Jiang et al.,2007]通过统⼀的特征空间表达形式来研究不同特征对关 系抽取性能的影响,其中特征空间可划分为序列、句法树和依存树等特征⼦空间。 实验结果表明,从三个⼦空间中提取出的基本单元
特征能取得较好的性能,⽽再 加⼊复杂的特征所带来的性能提升很⼩,只有当不同⼦空间和不同复杂度的特征 结合起来时,才能取得最好的性能。基于特征向量的⽅法尽管速度很快,也⽐较 有效,但其缺点是在转换结构化特征时需要显式地给出⼀个特征集合,由于实体 间语义关系表达的复杂性和可变性,要进⼀步提⾼关系抽取的性能已经很困难了, 因为很难再找出适合语义关系抽取的新的有效的词汇、句法或语义特征。 不同于特征向量的⽅法,基于核函数的⽅法不需要构造固有的特征向量空间, 能很好地弥补基于特征向量⽅法的不⾜。在关系抽取中,基于核函数的⽅法直接 以结构树为处理对象,在计算关系之间的距离的时候不再使⽤特征向量的内积⽽ 是⽤核函数,核函数可以在⾼维的特征空间中隐式地计算对象之间的距离,不⽤ 枚举所有的特征也可以计算向量的点积,表⽰实体关系很灵活,可以⽅便地利⽤多种不同的特征,使⽤⽀持核函数的分类器进⾏关系抽取。
基于核函数的关系抽取最早由
[Zelenko et al.,2003],他们在⽂本的浅层句法树的基础上定义了树核函 数,并设计了⼀个计算树核函数相似度的动态规划算法,然后通过⽀持向量机 (SVM)和表决感知器(Voted Perceptron)等
[Grishman et al.,2005]分类算法来抽 取实体间语义关系。
nutmeg [Culotta et al.,2004]提出基于依存树核函数的关系抽取,他们 使⽤⼀些依存规则将包含实体对的句法分析树转换成依存树,并在树节点上依次 增加词性、实体类型、词组块、WordNet 上位词等特征,最
后使⽤ SVM 分类器 进⾏关系抽取。
Mooney 和 Bunescu[Bunescu et al.,2005]进⼀步使⽤最短依存树核 函数,该核函数计算在依存树中两个实体之间的最短路径上的相同节点的数⽬, 要求对于具有相同关系的实体对,其对应的最短依存树具有相同的⾼度且达到根 节点的路径相同。为解决最短依存树核函数召回率较低的问题,
中秋快乐的英文 Bunescu 和 Mooney[Mooney et al.,2006]⼜提出基于字符串序列核函数的关系抽取,⾸先提取 出两个实体之间和前后⼀定数量的单词组成字符串并把其作为关系实例的表达 形式,规定⼦序列中允许包含间隔项,进⽽实现关系抽取。
[Zhou et al.,2007]提出 最短路径包含树核,将语义关系实例表⽰为上下⽂相关的最短路径包含树,能根 据句法结构动态扩充与上下⽂相关的谓词部分,并采⽤上下⽂相关的核函数计算 ⽅法,即在⽐较⼦树相似度时也考虑根结点的祖先结点,将该核函数同基于特征 的⽅法结合起来,充分考虑结构化信息和平⾯特征的互补性。然⽽该类⽅法依赖 传统的句法分析等复杂的⾃然语⾔处理⼯具,很多语⾔没有此类⼯具,即使有的 语⾔有此类⼯具但是也会造成误差传递,影响最终的性能。
近年来,深度学习的⽅法在有监督关系抽取任务中占据了主导地位。[Zeng et al.,2014] ⾸先将卷积神经⽹络应⽤在了有监督关系抽取任务中。他们主要是应 ⽤了词向量将句⼦表⽰成了矩阵,再利⽤卷积神经⽹络和 maxpooling 得到句⼦ 的向量表⽰。最后⽤ softmax 分类器对该向量进⾏分类,得到句
⼦的关系类别。 同时期还有 [Thien et al.,2015] [Santos et al.,2015] 等⼯作也是采⽤了相似的⽅法。还有 [Socher et al.,2012] 利⽤了长短时记忆⽹络(LSTM)和句⼦的依存句法路 径来建模句⼦的表⽰,最后再⽤ softmax 分类器进⾏分类。为了更好的建模句⼦, [Zhou et al.,2016] 提出使⽤双向长短时记忆⽹络和关注机制。⽬前⼤部分学者关 注于如何更好的⽤深度学习模型建模句⼦。此类⽅法⼀般默认句⼦中已经标记出 了候选实体,但是实际任务中,需要系统⾃动发现实体。⽽且此类⽅法需要⼤量 的⼈⼯标注的语料作为训练数据才能取得较好的性能。
3.2.2.3 弱监督关系抽取
有监督关系抽取需要⼤量的标注样本,⽽⼈⼯标注数据费时费⼒、⼀致性差, 尤其是⾯向海量异构的⽹络数据时,问题就更加明显,为此,研究⼈员提出弱监督关系抽取。
弱监督关系抽取主要有两种框架:
⼀种是使⽤半监督学习和主动学习等技术以尽可能少的代价提升抽取效果,如[Sun et al.,2011]通过⼤规模的词聚类作为额外的特征,以解决实体之间特征过于泛化的问题,从⽽帮助关系抽取; [Sun et al.,2012]利⽤主动学习的技术,通过少量的标注数据来发现分类⾯附近的 未标注数据,对这些数据进⾏⼈⼯标注,从⽽以更少的标注代价获得更好的抽取 效果。
⼀种框架是使⽤回标的思想,利⽤现有知识库中的关系三元组,⾃动 回标三元组中实体所在的⽂本作为训练数据,由于其训练数据产⽣过程不需要⼈ ⼯标注,所以这种⽅法代价很低,更加适合⼤规模多领域的⽹络⽂本,它在信息 抽取领域近年来得到较⼴泛的应⽤。
弱监督回标思想最早由[Craven et al.,1999]提出,主要研究怎样在⽂本中抽取结构化数据建⽴⽣物学知识库(Biological Knowledge Bas),他们利⽤ Yeast Protein Databa ⾃动产⽣标注数据,然后训练朴素贝叶斯分类器抽取结构化数据。
紧接着,[Mintz et al.,2009]使⽤利⽤ Freeba 作为知识库,将其中的关系实例所包含的实体同维基百科⽂本中的实体对齐,以此产⽣训练数据,然后使⽤逻辑斯谛回归进⾏关系抽取。弱监督回标主要基于以下假设:如果两个实体在知识库中具有⼀定的关系,那么根据同时包含这两个实体的句⼦,就都能推断出实体 对在知识库中具有的关系。由于语⾔表达的多样性,弱监督的这种假设往往太过 强烈,两个实体出现在同⼀个句⼦中并不能表⽰它们就⼀定具有某种语义关系, 有可能这两个实体只是属于同⼀个话题⽽已[Riedel et al.,2010]。因此,虽然弱监 督⽅法克服了有监督⽅法需要⼈⼯标注数据的不⾜,但也带来了新问题——回标 噪声问题。研究⼈员提出了⼀系列模型和⽅法来克服回标噪声问题,Riedel 等将 弱监督关系抽取看作是⼀个多⽰例问题,他们的假设中,只需要在回标出来的所 有句⼦中,有⼀个句⼦能表⽰两个实体间的关系。将所有回标的句⼦看作⼀个包, 其中的每⼀个句⼦就是包中的⼀个⽰例,从⽽解决回标噪声的问题。
[Hoffmann et al.,2011] 更进⼀步,在多实例模型中考虑实体对间可能不⽌有⼀种关系,取得 了更好的效果。
[Surdeanu et al.,2012] 不但对噪声训练数据进⾏建模,并对实体 对可能属于多个关系类型这个问题进⾏建模,他们提出了基于概率图模型的多实例多标签模型,在以 Freeba 为知识库和纽约时报作为回标语料的数据上进⾏ 实验,结果表明其模型提升了原始⽅法的抽取效果。
[Takamatsu et al.,2012] 发 现多⽰例模型的“⾄少⼀句表达真实关系”'的假设有可能失败,其通过抽样统计 显⽰,Freeba 知识库中 91.7%的实体对在英⽂维基百科⽂章中只能回标到⼀个 句⼦,此时多⽰例模型的假设不能成⽴,他们的⼯作通过产⽣式图模型来预测可 能具有噪声的特征模板,然后过滤包含这些模板的正样本,利⽤剩下的样本训练 抽取模型。利⽤ Freeba 作为知识库,在 NYU 语料上进⾏回标,针对 15 类关系选取置信度最⾼的 50 个结果进⾏⼈⼯评测,平均准确率为 89%。
上述⽅法都是基于传统特征的,然⽽传统特征的设计耗时费⼒,扩展性差。
初四英语 近些年,基于神经⽹络的⽅法占据主导地位。[Zeng et al.,2015] ⾸先提出了⽤卷 积神经⽹络来建模句⼦,并依据 “⾄少⼀个假设”,将整个学习过程视为多⽰ 例学习。利⽤ Freeba 作为知识库,在 NYU 语料上进⾏回标,针对 55 类关系 选取置信度最⾼的 100 个结果进⾏⼈⼯评测,平均准确率为 86%。 [Ji et al.,2017] [Lin et al.,2016] 认为 [Zeng et al.,2015] 的⽅法只能够利⽤包中的⼀个句⼦,提
出了使⽤关注机制,⾃动学得包中每个句⼦的权重,然后将句⼦的表⽰按照权重 加权表⽰为包的表⽰,最后对包进⾏分类,得到包的关系。其中 [Ji et al.,2017] 还使⽤了外部⽂本信息。 [Jiang et al.,2016] 提出了不同于 “⾄少⼀个” 假设, 他们认为很多情况下,要判断⼀个包的关系要同时使⽤多个句⼦的信息,因此提 出了 Cross-ntence maxpooling 的⽅法。除此之外,最近有 [Luo et al.,2011] 提出使⽤动态矩阵来建模噪声,以此来增强弱监督关系抽取。 [Lin et al.,2017] 还 关注了跨语⾔的弱监督关系抽取。 ⽬前,基于机器学习的关系抽取⽅法占据了主导地位。然⽽,⽆监督的关系 抽取得到的知识缺乏语义信息、很难归⼀化;有监督关系抽取中需要⼤量⼈⼯标 注的⾼质量数据作为训练语料,⼈⼯标注耗时费⼒成本⾼,所以很难⼤规模推⼴; 弱监督关系抽取虽然可以⾃动⽣成⼤规模训练语料,但是⾃动⽣成训练语料的过 程中需要⼤规模的已有知识图谱作为种⼦,⽽且⽣成的语料中会有噪⾳数据。
4. 技术展望与发展趋势
summit 从 20 世纪 90 年代以来,关系抽取技术研究蓬勃发展,已经成为了⾃然语⾔ 处理和知识图谱等领域的重要分⽀。这⼀⽅⾯得益于系列国际权威评测和会议的 推动,如消息理解系列会议(MUC,Message Understanding Conference),⾃动内容抽取评测
(ACE,Automatic Content Extraction)和⽂本分析会议系列评测(TAC, Text Analysis Conference)
。另⼀⽅⾯也是因为关系抽取技术的重要性和实⽤性, 使其同时得到了研究界和⼯业界的⼴泛关注。关系抽取技术⾃⾝的发展也⼤幅度 推进了中⽂信息处理研究的发展,迫使研究⼈员⾯向实际应⽤需求,开始重视之 前未被发现的研究难点和重点。纵观关系抽取研究发展的态势和技术现状,我们 认为关系抽取的发展⽅向如下:
⾯向开放域的可语义化的关系抽取技术 ⽬前,绝⼤部分的关系抽取研究集中预定义的关系抽取上,并致⼒于构建更 精准的有监督抽取模型和⽅法,使⽤标注语料训练模型参数。然⽽,在构建真实 环境下的关系抽取系统时,这些有监督⽅法往往存在如下不⾜:
1)更换语料类 型之后,现有模型往往会有⼀个⼤幅度的性能下降;
2)⽆法抽取⽬标关系类别 之外的实体关系知识;
3)性能依赖于⼤规模的训练语料;
4)现有监督模型往往 依赖于⾼复杂度的⾃然语⾔处理应⽤,如句法分析。
⽬前已经有很多机构和学者进⾏开放域的关系抽取的研究,但是⽬前的⽅法抽取的关系很难语义化,同⼀个实体对的同⼀关系会抽取出不同的表达,另外不 同的数据来源其质量和可信度不同,如何整合不同数据源抽取的关系知识,并将 同⼀关系的知识进⾏消歧进⽽语义化是⼀个迫切需要解决的问
good friend题。
篇章级的关系抽取
现有⼤多数的关系抽取集中在从包含两个指定实体的⼀个或者多个句⼦中 抽取关系,很少有⼯作将抽取范围扩⼤到篇章级别。然⽽,真实环境下,如产品 说明书等,⼀篇⽂章会描述多个实体的多个属性或者关系,⽽且⽂本中存在⼤量 的零指代的语⾔现象,因此必须利⽤篇章级的信息进⾏关系和属性值的抽取。
具有时空特性的多元关系抽取 ⽬前,绝⼤部分的关系抽取研究集中在⼆元关系抽取上,即抽取⽬标为三元 组(实体 1,关系,实体2),然⽽⼆元关系很难表达实体关系的时间特性和空间 特性,⽽且很多关系是多元的,例如:NBA 球星勒布朗詹姆斯效⼒过的球队。 这就是⼀个多元关系,⾸先他效⼒过的球队有多⽀,其次效⼒于每⽀球队的时间 也不同,这就是关系的时空性和多元性。具有时空特性的多元关系能建模和表达 更丰富的关系知识,是未来研究的⼀个⽅向。 最后,纵观近 30 余年来关系抽取的现状和发展趋势,我们有理由相信,随 着海量数据资源(如 Web)、⼤规模深度机器学习技术(如深度学习)和⼤规模 知识资源(如知识图谱)的蓬勃发展,关系抽取这⼀极具挑战性同时也极具实⽤ 性的问题将会得到相当程度的解决。同时,随着低成本、⾼适应性、⾼可扩展性、 可处理开放域的关系抽取研究的推进,关系抽取技术的实⽤化和产业化将在现有 的良好基础之上取得进⼀步的长⾜发展。