2021年3月Journal on Communications March 2021 第42卷第3期通信学报V ol.42No.3基于层级注意力机制的链接预测模型研究
赵晓娟1,2,贾焰1,李爱平1,陈恺1
(1. 国防科技大学计算机学院,湖南长沙 410073;2. 湖南工业大学商学院,湖南株洲 412007)摘 要:为了解决已有图注意力机制在进行链接预测相关任务时,容易造成注意力分配向某些出现频率高的关系倾斜的问题,提出了一种基于层级注意力机制的链接预测模型。在链接预测任务中,通过设计分层注意力机制,根据预测任务中的关系对知识图谱中与给定实体相连的不同类型的关系给予不同的注意力。在关注多跳邻居实体特征的同时,更关注关系特征以找到符合目标关系的关系类型。在多个基准数据集上与主流模型进行对比实验,实验结果表明,所提模型性能优于主流模型,并具有较好的稳健性。
关键词:层级注意力机制;链接预测;知识图谱嵌入
中图分类号:TP391
文献标识码:A
DOI: 10.11959/j.issn.1000−436x.2021057
Rearch on link prediction model bad
on hierarchical attention mechanism
ZHAO Xiaojuan1,2, JIA Yan1, LI Aiping1, CHEN Kai1
1. College of Computer Science and Technology, National University of Defen Technology, Changsha 410073, China
2. College of Business, Hunan University of Technology, Zhuzhou 412007, China
Abstract: In order to solve the problem that the existing graph attention mechanism tends to cau attention distribution to certain relations with high frequency when performing link prediction related tasks, a new link prediction model bad on hierarchical attention mechanism was propod. In the link prediction task, a hierarchical attention mechanism was designed to give different attention to the relationships of different relationship types connected to a given entity in the knowledge graph according to the relationship in the prediction task. While the characteristics of multi-hop neighbor enti-ties were pay attention to, the relationship characteristics was pay more attention to find the relationship type that matches the target relationship. Through comparison experiments with the mainstream models on multiple benchmark data ts, the results show that the performance of the model is better than the mainstream models and has good robustness.
Keywords: hierarchical attention mechanism, link prediction, knowledge graph embedding
1 引言
在资源描述框架(RDF, resource description framework)下,知识可以表示为事实三元组,即(头实体, 关系, 尾实体)的形式,例如“A是一名运动员”可表示为(A, 职业, 运动员),其中,“A”
收稿日期:2020−08−20;修回日期:2020−11−06
通信作者:李爱平,*****************
基金项目:国家重点研发计划基金资助项目(No.2017YFB0802204, No.2016QY03D0603, No.2016QY03D0601, No.2017YFB0803301, No.2019QY1406);广东省重点研发计划基金资助项目(No.2019B010136003);国家自然科学基金资助项目(No.61732004, No.61732022, No.61672020);湖南省重点研发计划基金资助项目(No.2018GK2056);湖南省教育厅科研基金资助项目(No.19C0597)Foundation Items: The National Key Rearch and Development Program of China (No.2017YFB0802204, No.2016QY03D0603, No.2016QY03D0601, No.2017YFB0803301, No.2019QY1406), The Key Rearch and Development Program of Guangdong Prov-ince (No.2019B010136003), The National Natural Science Foundation of China (No.61732004, No.61732
022, No.61672020), The Key Rearch and Development Project of Hunan Province (No.2018GK2056), Scientific Rearch Found of Hunan Provincial Education Department (No.19C0597)
电脑常见故障
第3期赵晓娟等:基于层级注意力机制的链接预测模型研究·37·
“职业”“运动员”分别是三元组的头实体、关系和尾实体。知识也可以表示为有向多关系图,即知识图谱,其中,每个节点对应一个实体,连接节点的每条边对应一种关系。知识图谱中的一个三元组或者事实,,
h r t表示一对实体及实体之间的关系。图1为RDF表示与知识图谱表示的示例。
booby
图1 RDF表示与知识图谱表示的示例
知识图谱嵌入旨在学习知识图谱中的每个元素(实体和关系)在连续低维度向量空间中的潜在表示,使知识图谱具有可计算性,并且更容易与深度学习模型集成。它支撑着许多实际应用,包括知识问答[1-3]、推荐系统[4-6]和其他自然语言理解任务[7-9]。然而,即使YAGO[10]、DBPedia[11]、Freeba[12]这样包含了数十亿个事实的大型知识图谱,也不能避免关系或者节点缺失的问题[2,13-14],从而引出了知识图谱补全任务的研究。这类研究任务一方面利用知识图谱中已经存在的信息来自动推断缺失的事实,另一方面预测三元组是否有效。
在知识图谱中,实体存在的意义很大程度上取决于其连边的关系类型,同一个实体在不同的关系下,其表示的重点也应有所不同。例如,对于图1中的实体“A”作为(A, 职业, 运动员)的头实体,在嵌入表示时更多地体现作为一个运动员的属性;作为(A, 毕业于, 华东师范大学)的头实体,在嵌入表示时则更多地体现作为学生的一些属性。考虑(A, 国籍, ?)这样一个链接预测问题,根据问题中的关系“国籍”可知,“职业”和“获奖”这2种关系对推
理“国籍”的贡献不会比“出生于”和“毕业于”这样的关系大,因为与“出生于”和“毕业于”相连的尾实体才是与国籍有关的地点。
事实上,当使用知识图谱嵌入技术将实体和关系投影到低维连续向量空间时,根据已知事实(A, 出生
于, 上海)和(上海, 属于, 中国),本文可以把“A”和“中国”都映射到“上海”附近的向量空间,所以它们在向量空间中的距离比较近,而且,在关系嵌入的向量空间中,相对于“职业”和“获奖”,“出生于”与“国籍”的嵌入向量所表达的语义更接近。因此,通过“出生于”推导出“国籍”的尾实体比通过“职业”或“获奖”推导出的结果更可信。
深度学习的注意力机制模拟人类的选择性视觉注意力,从众多信息中选择与当前预测目标最相关的信息,并根据这些信息做出预测,近年来被各个领域的不同任务广泛采用。文献[15]提出一种在知识图谱推理中关注关系的方法,对不同的关系赋予不同的注意力,但是该方法与其他图神经网络一样,在训练过程中,随着网络层数的增加和迭代次数的增加,每个节点的隐层表征会趋向于收敛到同一个值,即通常所说的过度平滑问题。
基于前述问题,本文提出一种新的层级注意力机制的链接预测模型。模型的主要思想是通过分层聚合来避免过度平滑问题,同时,在关系子图之间的信息聚合时,设计一种更简洁的关系注意力机制,可以根据预测问题中的目标关系对知识图谱中给定实体不同类型的关系给予不同的注意力。具体来说,在低维向量空间中,学习给定实体及其多跳邻域的实体和关系的特征,根据与目标关系的距离分配注意力,通过将更多的注意力分配给语义更接近的关系来获得更准确的尾实体预测结果。
本文的主要贡献是设计了一种基于分层注意力机制的嵌入模型,并将模型应用在知识图谱链接预测任
务中。分层注意力机制除了关注多跳邻居实体特征外,能更加关注关系特征以找到符合目标关系的关系类型。
2 相关研究工作
小型企业会计制度
以图神经网络(GNN, graph neural network)[16]为基础的图卷积网络(GCN, graph convolutional network)[17]能同时对节点特征信息与结构信息进行端对端学习,是目前对图数据学习任务的最佳选
·38·通信学报第42卷
择。从GCN开始,研究者越来越多地关注将卷积运算引入图领域,这里的图是指图论中用顶点和边建立相应关系的拓扑图。但是,传统的离散卷积在知识图谱这种非欧几里得数据上无法保持平移不变性,如何定义能够处理大小可变的邻居集和共享参数的操作是一个具有挑战性的问题。
为了解决这个问题,文献[18]提出GraphSAGE (graph sample and aggregate)模型,从每个节点的邻居节点中提取固定数量的节点,然后使用聚合函数融合这些邻居节点的信息。当然,这也意味着模型不能采样到所有的邻居。与文献[18]类似,图注意力(GAT, graph attention)[19]也是该研究领域一个典型的模型,这个模型是基于所有邻居节点,而且对邻居节点的顺序没有要求。虽然该模型在图网络结构中取得了成功,但不能直接用于知识图谱,因为这个模型仅考虑了节点,而忽略了知识图谱中
非常重要的一部分信息,即知识图谱中实体之间的关系。本质上,GCN[17]和GAT[19]都是将邻居节点的特征聚合到中心节点,利用图上的局部平衡状态学习新的节点特征表达式;不同之处在于GCN使用了拉普拉斯矩阵,而GAT使用的是注意力机制。CompGCN[20]是一个考虑多种关系信息的图神经网络框架,它通过共同学习多关系知识图谱中关系和节点的向量表示,解决了传统GCN的难点。为了避免随着关系数量增加,参数数量显著增加的问题,CompGCN使用一组基作为可学习的基向量,而不是为每个关系定义嵌入。
实际上,对于每个节点,模型选取它的一些邻居,每个邻居对节点都有一定的影响,但每个邻居的影响力都可能不同,文献[17, 20]没考虑每个邻居对节点的影响力的差异。因此,文献[21]提出了一种端到端的模型,该模型在聚合每一层节点特征时考虑了知识图谱中的关系,但是,该模型在计算注意力时只考虑了关系和实体表示的简单拼接,并没有反映不同关系对特定推理任务的重要程度不同。文献[22]的Minerva模型将每一种关系设置为一种任务类型,在预训练中针对特定任务进行模型训练,这实际上是一种考虑知识图谱中不同类型关系的实践,该模型根据关系对三元组进行分类,并没有分别考虑邻居节点和关系对目标节点嵌入的影响。
3任务描述
在知识图谱链接预测任务中,目标是当u或v
丢失时,推断一个三元组(,,)
u r v是否是有效三元组,即给定(,)
r v推导u或者给定(,)
u r推导v,本文研究的任务包括(,,?)
u r和(,,)
r v
?。对于这2种情形,本文并没有单独为每一种情况训练一个模型,而是训练了同一个模型用于这2种情况的评估。对于每个测试三元组(,,)
u r v,本文用知识图谱中存在的所有实体替换每个头实体,构造(1)
n−个被损坏的三元组,然后对每一个这样的三元组评分。最后将这些分数按升序排序,得到正确的三元组的排列。本文也可以用同样的方法替换三元组的尾实体。
知识图谱用G=(E, R, V)表示,这里的E R V
、、
分别表示实体、关系、三元组的集合。
{(,,)}
fog
V u r v E R E
=∈××,其中,,u v E
∈是实体,r R
新西兰出国∈是实体之间的关系。嵌入模型尝试学习一个有效的函数f(g),对于给定的输入三元组T=(u, r, v),()
hilariousf T给出T是一个有效三元组的可能性。
4模型设计
4.1模型整体框架
本节将详细描述本文提出的模型。异构图注意力[23]在异构图神经网络中使用分层注意力机制,包括
节点级别的注意力和语义级别的注意力。受该思想的启发,本文提出了一种新的基于层级注意力机制的链接预测模型。整个链接预测模型主要由两部分组成:编码部分和解码部分,RAKGR(relation attention bad knowledge graph reasoning)作为编码器,ConvKB[24]作为解码器。RAKGR由多层组成,整体框架如图2所示,其每一层由GAT和关系注意力(RAT, relation attention)两部分组成。每一个GAT和RAT都由多个注意力头组成。本文假设RAT 和GAT的注意力个数相同。图2中的多头注意力拼接展示了将每个注意力头的输出结果concat之后再降维,也可以直接求各个注意力头输出的平均值。ConvKB由一个二维卷积Conv2D表示,其相关内容详见文献[24]。
图3给出了某一层中的某个注意力头“GAT+RAT”示例,来说明图2中所示的“GAT+RAT”的工作原理。这里仅表示单一注意力头,且仅说明其中一层的情况。中心节点0有9个一阶直接邻居,将这些邻居分成3个邻居子图{1, 2}、{3, 4, 5, 6}、{7, 8, 9},这3个子图与中心节点
之间的关系分别为
1
bxpr、
2
r和
3
r。图3中右侧黑色圆圈表示每个中心节点0为每个邻居子图设置的对应
第3期 赵晓娟等:基于层级注意力机制的链接预测模型研究 ·39·
的虚拟节点。相应地,10r h 、20r h 和30r h 分别对应基于关系1r 、2r 和3r 的子图在聚合邻居信息后的中心节点0的嵌入表示。首先,用GA T 聚合子图内部各节点的信息;然后,用关系注意力机制聚合这3个虚拟节点的信息,以获得更新后的中心节点0的嵌入表示。 4.2 构建邻居子图
给定三元组(,,)u r v G ∈,0u h 、0r h 、0v h 分别表示u 、r 、v 对应的初始嵌入。本文用TransE [25]获得模型的初始嵌入,然后分别用2种类型的转换矩阵V W 和R W 将节点和关系投射到相同的特征空间。本文将某个中心节点的所有一阶邻居根据其与中心节点之间的关系类型分成不同的子图,也就是说,中心节点与它的一阶邻居之间有多少种类型的关系,就会生成多少个邻居子图。每个子图中所有节
点与中心节点之间的关系是一样的。与文献[23]类似,本文将聚合的过程分为2个级别:子图内部的信息聚合和关系子图之间的信息聚合。 4.3 子图内部的信息聚合
为了获得节点v 的新的嵌入表示,本文将与该节点相连的每一个实体表示为
1LeakyReLU{[||]}uv v u
a h h ′′=W (1) 其中,1W 为一个线性变换矩阵。
在考虑邻居节点对目标节点的重要性时,本文
用uv a 表示注意力的绝对值。然后,类似于GAT [19],将上述注意力的绝对值进行归一化,如式(2)所示。
()
exp()
soft max()exp()r
uv uv uv un
n N v a a a α∈==
∑
(2)
英语初级听力下载图2 RAKGR 整体框架
图3 某一层中的某个注意力头“GAT+RAT ”示例
·40· 通 信 学 报 第42卷
其中,r
so yesterdayuv α为节点u 与节点v 在关系r 下的相关权重系数,()N v 为与节点v 直接相连的邻居节点的集
合。根据式(2)中得到的相关性权重系数,用式(3)
将子图中每个邻居的信息进行聚合。
'
'()
r t r N v uv u uv h h σα⎛⎞=⎜⎟⎝⎠
∑ (3) 其中,()r t
N
v h ′为关系t r 下节点v 聚合邻居节点信息后的嵌入表示;()t r N v 为与节点v 之间存在关系t r 的邻居节点的集合。
使用多头注意力机制可以获取更多关于邻居节点的信息,因此,对应多头注意力机制的情况,可将式(3)转换为
''()
1||r t M
r N v uv u m uv h h σα=⎛⎞=⎜⎟⎝⎠∑ (4) 其中,||表示拼接操作,
是一种集成多个注意力头输出结果的聚合方式。多头和单头的区别在于每个注
意力头的权重系数不一样,但模型是一样的。
假设用一个虚拟节点来表示某个邻居子图的
所有信息,那么中心节点与邻居子图之间的关系就
简化成了节点与节点之间的关系。对应于关系t r 的
虚拟节点可表示为 ''()()(,)t
r r t
N v v N v h f h h = (5) 其中, ()f ⋅是转换函数,'
v h 是中心节点v 在高维空间中的嵌入表示。由此可以得到T 组特定关系的节
点嵌入为()()(){,,,}t
r r r N v N v N v h h h 。
4.4 关系子图之间的信息聚合
根据目标关系给每个邻居子图分配不同的注意力值,也称为关系子图级别的聚合。本文要给每个邻居子图计算一个注意力分数t r a 。区别于A2N (attending to neighbor )[15]的注意力机制,本文将子图之间信息聚合环节的注意力分数表示为
()(,,())[||||]t t r t
r r v r N v a f v r N v h h h ′′==W (6)
对上述注意力分数t r a 进行标准化处理,得到每个邻居子图对中心节点v 的相关性权重值为
1
exp()
additionsoft max()exp()
t t
i
r r
t
r T
r i a a a
α===
∑ (7)
将学习到的权重r t α作为系数,聚合这些特定关系的嵌入,得到节点v 更新后的嵌入表示为
()r t
r v t N v t h h σα⎛⎞
=⎜⎟⎝⎠
∑ (8)
其中,r t α代表与中心节点之间存在关系t r 的邻居集对中心节点v 的嵌入表示的影响,也就是()r t
N v h 对
v h 的影响;v h 是中心节点v 更新后的嵌入表示。
上述过程仅描述了RAKGR 模型的单层单头注
意力聚合过程。同理,可以采用多头注意力机制获得更丰富的邻居信息。类似地,M 个注意力的情况表示为
()1||r t
M
r v t N v m t h h σα=⎛⎞
=⎜⎟⎝⎠
∑ (9)
上述聚合过程可以扩展到多层,使模型具有高
阶传播的特点,即 1()(,)k k k v v N v h f h h += (10)
对于一个节点与另一个节点之间存在多个关
系的情况,本文将这个节点复制n 次得到n 个不同
的节点,因此,本文在后续知识图谱推理的应用中
根据知识图谱中边的数量来构建邻居子图。
4.5 模型优化目标
本文的模型第一阶段训练目标借鉴了TransE [25]
的平移平分函数的思想。对于一个给定三元组
(,,)k ij t u r v =,学习一种嵌入表示,其能量函数定义为
22(,,)||||d u r v u r v =+− (11)
本文使用基于边际的评分函数作为训练目标,
定义为
''''(,,)(,,)(,,)[(,)(,)]u r v T u r v T L u r v d u r v d u r v γ−
+∈∈=
++−+∑∑
(12) 其中,[]x +表示取x 正的部分,0γ>表示一个边际超参数,(,,)u r v T ∈,T 表示有效三元组集合,也称之为正样本,而T −则是负样本,表示为
{(,,)|\}{(,,)|\}T u r v u E u u r v v E v −′′′′=∈∈∪ (13) 本文通过用其他实体替换三元组的头实体或者尾实体来得到负样本。
第二阶段的ConvKB 采用与文献[21]类似的方法,定义评分函数为
1
()(||ReLU(concat(,,)))k m ij
i r j m f t e e e κ
ω==∗W (14)
其中,i e 、r e 和j e 分别表示头实体的最终嵌入、关系的最终嵌入和尾实体的最终嵌入;concat 表示将