知识图谱⽂献综述(第⼆章知识表⽰学习)
第⼆章知识表⽰学习
1. 任务定义、⽬标和研究意义
知识表⽰是知识获取与应⽤的基础,因此知识表⽰学习问题,是贯穿知识库的构建与应⽤全过程的关键问题。⼈们通常以⽹络的形式组织知识库中的知识,⽹络中每个节点代表实体(⼈名、地名、机构名、概念等),⽽每条连边则代表实体间的关系。然⽽,基于⽹络形式的知识表⽰⾯临诸多挑战性难题,主要包括如下两个⽅⾯:
(1)计算效率问题。基于⽹络的知识表⽰形式中,每个实体均⽤不同的节点表⽰。当利⽤知识库计算实体间的语义或推理关系时,往往需要⼈们设计专门的图算法来实现,存在可移植性差的问题。更重要的,基于图的算法计算复杂度⾼,可扩展性差,当知识库规模达到⼀定规模时,就很难较好地满⾜实时计算的需求。
(2)数据稀疏问题。与其他类型的⼤规模数据类似,⼤规模知识库也遵守长尾分布,在长尾部分的实体和关系上,⾯临严重的数据稀疏问题。例如,对于长尾部分的罕见实体,由于只有极少的知识或路径涉及它们,对这些实体的语义或推理关系的计算往往准确率极低。
近年来,以深度学习[Bengio, et al., 2009]为代表的表⽰学习[Bengio, et al., 2013]技术异军突起,在语⾳识别、图像分析和⾃然语⾔处理领域获得⼴泛关注。表⽰学习旨在将研究对象的语义信息表⽰为稠密低维实值向量。在该低维向量空间中,两个对象距离越近,则说明其语义相似度越⾼。知识表⽰学习,则是⾯向知识库中的实体和关系进⾏表⽰学习。知识表⽰学习实现了对实体和关系的分布式表⽰,它具有以下主要优点:
(1)显著提升计算效率。知识库的三元组表⽰实际就是基于独热表⽰的。如前所分析的,在这种表⽰⽅式下,需要设计专门的图算法计算实体间的语义和推理关系,计算复杂度⾼,可扩展性差。⽽表⽰学习得到的分布式表⽰,则能够⾼效地实现语义相似度计算等操作,显著提升计算效率。
(2)有效缓解数据稀疏。由于表⽰学习将对象投影到统⼀的低维空间中,使每个对象均对应⼀个稠密向量,从⽽有效缓解数据稀疏问题,这主要体现在两个⽅⾯。⼀⽅⾯,每个对象的向量均为稠密有值的,因此可以度量任意对象之间的语义相似程度。另⼀⽅⾯,将⼤量对象投影到统⼀空间的过程,能够将⾼频对象的语义信息⽤于帮助低频对象的语义表⽰,提⾼低频对象的语义表⽰的精确性。
(3)实现异质信息融合。不同来源的异质信息需要融合为整体,才能得到有效应⽤。例如,⼈们构造了⼤量知识库,这些知识库的构建规范和信息来源均有不同,例如著名的世界知识库有 DBPedia、YAGO、Freeba 等。⼤量实体和关系在不同知识库中的名称不同。如何实现多知识库的有机融合,对知识库应⽤具有重要意义。通过设计合理的表⽰学习模型,将不同来源的对象投影到同⼀个语义空间中,就能够建⽴统⼀的表⽰空间,实现多知识库的信息融合。此外,当我们在信息检索或⾃然语⾔处理中应⽤知识库时,往往需要计算查询词、句⼦、⽂档和知识库实体之间的复杂语义关联。由于这些对象的异质性,在往常是棘⼿问题。⽽知识表⽰学习亦能为此提供统⼀表⽰空间,轻⽽易举实现异质对象之间的语义关联计算。
综上,由于知识表⽰学习能够显著提升计算效率,有效缓解数据稀疏,实现异质信息融合,因此对于知识库的构建、推理和应⽤具有重要意义,值得⼴受关注、深⼊研究。
2. 研究内容和关键科学问题
知识表⽰学习是⾯向知识库中实体和关系的表⽰学习。通过将实体或关系投影到低维向量空间,我们能够实现对实体和关系的语义信息的表⽰,可以⾼效地计算实体、关系及其之间的复杂语义关联。这对知识库的构建、推理与应⽤均有重要意义。⽬前,已经在知识图谱补全、关系抽取等任务中取得
了瞩⽬成果。但是,知识表⽰学习仍然⾯临很多挑战。
2.1 复杂关系建模行管局
现有知识表⽰学习⽅法⽆法有效地处理知识图谱中的复杂关系。这⾥的复杂关系定义如下。按照知识库中关系两端连接实体的数⽬,可以将关系划分为 1-1、 1-N、N-1 和 N-N 四种类型。例如 N-1 类型关系指的是,该类型关系中的⼀个尾实体会平均对应多个头实体,即我们将 1-N、N-1 和 N-N 称为复杂关系。研究发现,各种知识获取算法在处理四种类型关系时的性能差异较⼤,在处理复杂关系时性能显著降低。如何实现表⽰学习对复杂关系的建模成为知识表⽰学习的⼀个难点。
2.2 多源信息融合
知识表⽰学习⾯临的另外⼀个重要挑战如何实现多源信息融合。现有的知识表⽰学习模型仅利⽤知识图谱的三元组结构信息进⾏表⽰学习,尚有⼤量与知识有关的其他信息没有得到有效利⽤,例如:(1)知识库中的其他信息,如实体和关系的描述信息、类别信息等;(2)知识库外的海量信息,如互联⽹⽂本蕴含了⼤量与知识库实体和关系有关的信息。如何充分融合这些多源异质信息,实现知识
表⽰学习,具有重要意义,可改善数据稀疏问题,提⾼知识表⽰的区分能⼒。
2.3 关系路径建模
在知识图谱中,多步的关系路径也能够反映实体之间的语义关系。Lao 等⼈曾提出 Path-Constraint Random Walk[Lao, et al., 2010]、
Path Ranking Algorithm[Lao, et al., 2010]等算法,利⽤两实体间的关系路径信息,预测它们的关系,取得显著效果,说明关系路径蕴含着丰富的信息。如何突破知识表⽰学习孤⽴学习每个三元组的局限性,充分考虑关系路径信息是知识表⽰学习的关键问题。
3. 技术⽅法和研究现状
知识表⽰学习是近年来的研究热点,研究者提出了多种模型,学习知识库中的实体和关系的表⽰。本节将主要介绍其中的代表⽅法。
结构表⽰[Bordes, et al. 2011](Structured Embedding,SE)是较早的⼏个知识表⽰⽅法之⼀。对于⼀个事实三元组,SE 将头实体向量和尾实体向量通过关系的两个矩阵投影到关系的对应空间中,然后在该空间中计算两投影向量的距离。这个距离反映了两个实体在该关系下的语义相关度,它们的距离越⼩,说明这两个实体存在这种关系。然⽽,SE 模型有⼀个重要缺陷:它对头、尾实体使⽤两个不同的矩阵进⾏投影,协同性较差,往往⽆法精确刻画两实体与关系之间的语义联系。
因此,单层神经⽹络模型[Socher, et al. 2013](Single Layer Model, SLM)尝试采⽤单层神经⽹络的⾮线性操作,来减轻 SE ⽆法协同精确刻画实体与关系的语义联系的问题。虽然 SLM 是 SE 模型的改进版本,但是它的⾮线性操作仅提供了实体和关系之间⽐较微弱的联系。与此同时,却引⼊了更加⾼的计算复杂度。
此外,语义匹配能量模型[Bordes, et al., 2012; Bordes, et al., 2014](Semantic Matching Energy,SME)提出更复杂的操作,寻找实体和关系之间的语义联系。在 SME 中,每个实体和关系都⽤低维向量表⽰。在此基础上,SME 定义若⼲投影矩阵,利⽤双线性函数来刻画实体与关系的内在联系。
同样利⽤双线性函数的还有隐变量模型[Sutskever, et al., 2009; Jenatton, et al., 2012(] Latent Factor Model, LFM),该模型提出利⽤基于关系的双线性变换,刻画实体和关系之间的⼆阶联系。与以往模型相⽐,LFM 取得巨⼤突破:通过简单有效的⽅法刻画了实体和关系的语义联系,协同性较好,计算复杂度低。
后来的 DISTMULT 模型[Yang, et al., 2015]还探索了 LFM 的简化形式:将关系矩阵设置为对⾓阵。实验表明,这种简化不仅极⼤降低了模型复杂度,模型效果还得到显著提升。
在 LFM 的基础上,张量神经⽹络模型[Socher, et al. 2013](Neural Tensor Network,NTN)进⼀步利⽤关系的双线性变换来刻画实体与关系之间的联系,其基本思想是⽤双线性张量取代传统神经⽹络中的线性变换层,在不同的维度下将头、尾实体向量联系起来。由于NTN 引⼊了张量操作,虽然能够更精确地刻画实体和关系的复杂语义联系,但是计算复杂度⾮常⾼,需要⼤量三元组样例才能得到成分学习。实验表明,NTN 在⼤规模稀疏知识图谱上的效果较差。
此外,矩阵分解同样是是得到低维向量表⽰的重要途径。因此,也有研究者提出采⽤矩阵分解进⾏知识表⽰学习。这⽅⾯的代表⽅法是 RESACL模型[Nickel, et al., 2011; Nickel, et al., 2012]。 RESACL 的基本思想与前述 LFM 类似。不同之处在于,RESACL 会优化张量中的所有位置,包括值为 0 的位置;⽽ LFM 只会优化知识库中存在的三元组。
最近,Bordes 等⼈受到词向量空间对于词汇语义与句法关系存在有趣的平移不变现象的启发,提出了 TransE 模型[Bordes, et al., 2013],将知识库中的关系看作实体间的某种平移向量。与以往模型相⽐,TransE模型参数较少,计算复杂度低,却能直接建⽴实体和关系之间的复杂语义联系。Bordes 等⼈在 WordNet 和 Freeba 等数据集上进⾏链接预测等评测任务,实验表明 TransE 的性能较以往
模型有显著提升。特别是在⼤规模稀疏知识图谱上,TransE 的性能尤其惊⼈。由于 TransE 简单有效,⾃提出以来,有⼤量研究⼯作对 TransE 进⾏扩展和应⽤。可以说,TransE 已经成为知识表⽰学习的代表模型。在 TransE 的基础上,研究者提出了众多改进模型来解决 TransE 中仍⽆法处理的问题。
3.1 复杂关系建模
TransE 由于模型简单,在⼤规模知识图谱上效果明显。但是也由于过于简单,导致 TransE 在处理前⾯提到的知识库的复杂关系时捉襟见肘。例如,假如知识库中有两个三元组,分别是(美国, 总统, 奥巴马)和(美国, 总统, 布什)。这⾥的关系“总统”是典型的 1-N 的复杂关系。如果⽤ TransE 从这两个三元组学习知识表⽰,将会使奥巴马和布什的向量变得相同。
为了解决 TransE 模型在处理 1-N、N-1、N-N 复杂关系时的局限性,TransH 模型[Wang, et al., 2014]提出让⼀个实体在不同的关系下拥有不同的表⽰。
TransR 模型[Lin, et al., 2015]进⼀步认为不同的关系拥有不同的语义空间。对每个三元组,⾸先应将实体利⽤矩阵投影到对应的关系空间中,然后再建⽴从头实体到尾实体的翻译关系。
中心敬老院
针对在知识库中实体的异质性和不平衡性,还有 TransR 模型中矩阵参数过多的问题,TransD 模型[Ji, et al., 2015]和 TranSpar 模型[18]对 TransR 模型中的投影矩阵进⾏了进⼀步的优化。
此外,TransG 模型[Xiao, et al., 2015]和 KG2E 模型[He, et al. 2015]提出了利⽤⾼斯分布来表⽰知识库中的实体和关系,可以在表⽰过程中考虑实体和关系本⾝语义上的不确定性。
可以看到,在TransE之后,在如何处理复杂关系建模的挑战问题上,提出了TransH、TransR、 TransD、TranSpar、TransG 和KG2E 等多种模型,从不同⾓度尝试解决复杂关系建模问题,可谓百花齐放。在相关数据集合上的实验表明,这些⽅法均较 TransE 有显著的性能提升,验证了这些⽅法的有效性。野钓饵料
3.2 多源信息融合
知识表⽰学习⾯临的另外⼀个重要挑战如何实现多源信息融合。现有的知识表⽰学习模型如 TransE 等,仅利⽤知识图谱的三元组结构信息进⾏表⽰学习,尚有⼤量与知识有关的其他信息没有得到有效利⽤。如何充分融合这些多源异质信息,实现知识表⽰学习,具有重要
意义,可以改善数据稀疏问题,提⾼知识表⽰的区分能⼒。在融合上述信息进⾏知识表⽰学习⽅⾯,
已经有⼀些研究⼯作,但总体来讲还处于起步状态,这⾥简单介绍其中⼏个代表性⼯作。
考虑实体描述的知识表⽰学习模型(Description- Embodied Knowledge Reprentation Learning,DKRL)[Xie, et al., 2016]。DKRL 模型提出在知识表⽰学习中考虑 Freeba 等知识库中提供的实体描述⽂本信息。在⽂本表⽰⽅⾯,DKRL 考虑了两种模型:
1. CBOW,将⽂本中的词向量简单相加作为⽂本表⽰;
2. 卷积神经⽹络,能够考虑⽂本中的词序信息。
中国市场经济
DKRL 的优势在于,除了能够提升实体表⽰的区分能⼒外,还能实现对新实体的表⽰。当新出现⼀个未曾在知识库中的实体时,DKRL 可以根据它的简短描述产⽣它的实体表⽰,⽤于知识图谱补全等任务。这对于不断扩充知识图谱具有重要意义。此外,Wang 等⼈提出在表⽰学习中考虑⽂本数据,利⽤ word2vec 学习维基百科正⽂中的词表⽰,利⽤ TransE 学习知识库中的知识表⽰。然后利⽤维基百科正⽂中的链接信息(锚⽂本与实体的对应关系),让⽂本中实体对应的词表⽰与知识库中的实体表⽰尽可能接近,从⽽实现⽂本与知识库融合的表⽰学习。 Zhong 等⼈还将类似的想法⽤于融合实体描述信息[Zhong, et al., 2015]。已有⼯作表明,多源信息融合能够有效提升知识表⽰的性能,特别是可以有效处理新实体的表⽰问题。但是,也可以看出,多源信息融合的知识表⽰学习仍处于⾮常起步的阶段,相关⼯作较少,考虑的信息源⾮常有限,有⼤量的信息(如⾳频、图⽚、视频等)未被考虑,
具有⼴阔的研究前景。
3.3 关系路径建模
在知识图谱中,多步的关系路径也能够反映实体之间的语义关系。为了突破 TransE 等模型孤⽴学习每个三元组的局限性,Lin 等⼈提出考虑关系路径的表⽰学习⽅法,以 TransE 作为扩展基础,提出 Path-bad TransE(PTransE)模型[Lin, et al., 2015]。⼏乎同时,也有其他研究团队在知识表⽰学习中成功考虑了关系路径的建模[Alberto, et al., 2015]。关系路径的表⽰学习也被⽤来进⾏基于知识库的⾃动问答[Gu, et al., 2015]。 PTransE 等研究的实验表明,考虑关系路径能够极⼤提升知识表⽰学习的区分性,提⾼在知识图谱补全等任务上的性能。关系路径建模⼯作还⽐较初步,在关系路径的可靠性计算,关系路径的语义组合操作等⽅⾯,还有很多细致的考察⼯作需要完成。
4. 技术展望与发展趋势
近年来知识表⽰学习已经崭露头⾓,在很多任务上展现了巨⼤的应⽤潜⼒。对于 TransE 等模型⾯临的挑战,也已经提出了很多改进⽅案。然⽽,知识表⽰学习距离真正实⽤还很远,本节将对知识表⽰
联合国糖尿病日学习的未来⽅向进⾏展望。孕妇能喝啤酒吗
⾯向不同知识类型的知识表⽰学习已有⼯作将知识库的关系划分为 1-1、1-N、N-1 和 N-N 四类,这种关系类型划分略显粗糙,⽆法直观地解释知识的本质类型特点。近期发表在 Science 等权威期刊的认知科学研究成果[Kemp, et al., 2009; Tenenbaum, et al., 2011] 总结认为,⼈类知识包括以下⼏种结构:
暗道(1)树状关系,表⽰实体间的层次分类关系;
(2)⼆维⽹格关系,表⽰现实世界的空间信息;
(3)单维顺序关系,表⽰实体间的偏序关系;
(4)有向⽹络关系,表⽰实体间的关联或因果关系。
认知科学对⼈类知识类型的总结,有助于对知识图谱中知识类型的划分和处理。未来有必要结合⼈⼯智能和认知科学的最新研究成果,有针对性地设计知识类型划分标准,开展⾯向不同复杂关系类型的知识表⽰学习研究。
多源信息融合的知识表⽰学习
在多源信息融合的知识表⽰学习⽅⾯,相关⼯作还⽐较有限,主要是考虑实体描述的知识表⽰学习模型,以及⽂本与知识库融合的知识表⽰学习,这些模型⽆论是信息来源,还是融合⼿段都⾮常有限。我们认为在多源信息融合的知识表⽰学习⽅⾯,我们还可以对下列⽅⾯进⾏探索:
(1)融合知识库中实体和关系的其他信息,知识库中拥有关于实体和关系的丰富信息,如描述⽂本、层次类型等。有机融合这些信息,将显著提升知识表⽰学习的表⽰能⼒;
(2)融合互联⽹⽂本、图像、⾳频、视频信息,互联⽹海量⽂本、⾳频、视频数据是知识库的重要知识来源,有效地利⽤这些信息进⾏知识表⽰可以极⼤地提升现有知识表⽰⽅法的表⽰能⼒;
(3)融合多知识库信息,⼈们利⽤不同的信息源构建了不同的知识库。如何对多知识库信息进⾏融合表⽰,对于建⽴统⼀的⼤规模知识库意义重⼤。
考虑复杂推理模式的知识表⽰学习
考虑关系路径的知识表⽰学习,实际上是充分利⽤了两实体间的关系和关系路径之间的推理模式,来为表⽰学习模型提供更精确的约束信息。例如,根据三元组(康熙,⽗亲,雍正)和(雍正,⽗亲,乾隆)构成的“康熙”和“乾隆”之间 “⽗亲+⽗亲”的关系路径,再结合三元组(康熙,祖⽗,乾隆),PTransE 实际上额外提供了“⽗亲+⽗亲=祖⽗”的推理模式,从⽽提升知识表⽰的精确性。
实际上,关系路径只是复杂推理模式中的⼀种特殊形式,它要求头实体和尾实体必须保持不变。但实际上,知识库中还有其他形式的推理模式,例如三元组(美国,总统,奥巴马)和(奥巴马,是,美国⼈)之间就存在着推理关系,但是两者的头、尾实体并不完全⼀致。如果能将这些复杂推理模式考虑到知识表⽰学习中,将能更进⼀步提升知识表⽰的性能。在该问题中,如何总结和表⽰这些复杂推理模式,是关键难题。⽬前来看,⼀阶逻辑(First-Order Logic,FOL)是对复杂推理模式的较佳表⽰⽅案,未来我们需要探索⼀阶逻辑的分布
式表⽰,及其融合到知识表⽰学习中的技术⽅案。
⾯向⼤规模知识库的在线学习和快速学习⼤规模知识库稀疏性很强。初步实验表明,已有表⽰学习模型在⼤规模知识库上性能堪忧,特别是对低频实体和关系的表⽰效果较差。⽽且知识库规模不断扩⼤,我们需要设计⾼效的在线学习⽅案。除了充分融合多源信息降低稀疏性之外,我们还可以探索如何优化表⽰学习的⽅式,借鉴课程学习和迁移学习等算法思想,进⼀步改善知识表⽰的效果。
基于知识分布式表⽰的应⽤知识表⽰学习还处于起步阶段,在知识获取、融合和推理等⽅向均有⼴阔的应⽤空间。我们需要在若⼲重要任务上探索和验证知识表⽰学习的有效性。例如,关系抽取任务如果能够基于知识表⽰学习有效利⽤知识库信息,将能够极⼤提升抽取性能和覆盖⾯。再如,我们可以充分利⽤表⽰学习在信息融合上的优势,实现跨领域和跨语⾔的知识库融合。⽬前,知识分布式表
⽰的作⽤已经在信息抽取、⾃动问答、信息检索、推荐系统中得到初步验证,未来还需在更多任务上进⾏更加深⼊的探索。亡羊补牢文言文