基于卷积神经网络的知识图谱补全方法研究

更新时间:2023-06-09 18:02:51 阅读: 评论:0

第38卷第4期   计算机应用与软件
Vol 38No.42021年4月 
ComputerApplicationsandSoftware
Apr.2021
基于卷积神经网络的知识图谱补全方法研究
王维美1 陈 恒1,2 史一民1 李冠宇1
(大连海事大学信息科学技术学院 辽宁大连116026)
(大连外国语大学软件学院 辽宁大连116044)
收稿日期:2019-09-06。国家自然科学基金项目(61371090,61602076,
61702072,61976032);国家社会科学基金项目(15BYY028);辽宁省自然科学基金项目(20170540232,20170540144,20180540003);大连外国语大学科研创新团队项目(2016CXTD06)。王维美,硕士生,主研领域:智能信息处理。陈恒,博士生。史一民,副教授。李冠宇,教授。
摘 要  知识图谱是事实三元组的集合,其表示形式为(头实体,关系,尾实体)。为了补全知识图谱中缺失的实体和关系,提出一种基于卷积神经网络的知识图谱补全方法。使用传统嵌入模型训练三元组,得到实体向量和关系向量;将三元组表示成3列矩阵,作为卷积神经网络的输入,卷积后得到三元组的特征表示图;连接所有特征图和权重向量进行点乘得到每个三元组的得分,得分越低证明三元组越正确。实验采用数据集WN18RR、FB15K 237、FB15K分别进行链接预测和三元组分类实验。实验结果表明,与其他方法相比,该方法在MeanRank和Hit@10指标上都取得了更好的实验结果,证明其可以有效提高三元组预测精度。关键词  知识图谱 知识图谱补全 卷积神经网络 链接预测 三元组分类
中图分类号 TP181    文献标志码 A    DOI:10.3969/j.issn.1000 386x.2021.04.041
KNOWLEDGEGRAPHCOMPLETIONMETHOD
BASEDONCONVOLUTIONALNEURALNETWORK
WangWeimei1 ChenHeng1,2 ShiYimin1 LiGuanyu
赞美山峰的诗句1
(FacultyofInformationScience&Technology,DalianMaritimeUniversity,Dalian116026,Liaoning,China)
(SchoolofSoftware,DalianUniversityofForeignLanguages,Dalian116044,Liaoning,China)
Abstract  Knowledgegraphisacollectionoffactualtriples,therepresentationis(head,relation,tail).Inordertocompletethemissingentitiesandr
elationsintheknowledgegraph,animprovedconvolutionalneuralnetworkknowledgegraphcompletionmethodisproposed.Thetraditionalembeddingmodelwasusedtotrainthetriplestoobtaintheentityvectorandtherelationvector;thetriplewasrepresentedasa3 columnmatrixastheinputtotheconvolutionalneuralnetwork,andthematrixwasconvolvedwithconvolutionkerneltoobtainfeaturemaps;allfeaturemapswereconnected,andtheweightvectorwasmultipliedtoobtainthescoreofeachtripletodeterminethecorrectnessofatriple.Intheexperiment,thedatasetsWN18RR,FB15K 237,FB15Kwereusedtolinkpredictionandtripleclassificationexperiments.Theexperimentalresultsshowthatcomparedwithothermethods,theproposedmethodachievesbetterexperimentalresultsontheMeanRankandHit@10indicators,whichprovesthatthemethodcaneffect
ivelyimprovethepredictionaccuracyofthetriples.
Keywords  Knowledgegraph Knowledgegraphcompletion Convolutionalneuralnetwork Linkprediction Tripleclassification
0 引 言
知识图谱(Knowledgegraph,KG)是种新型知识表
示方法,其概念最早由谷歌公司提出,Google认为
things,notstrings”,即对于搜索引擎来讲,世界中的各种物体不应该仅仅是string,而是具有实际含义的
thing[1]
。KG提供图结构化信息,成为智能问答、Web
第4期   王维美,等:基于卷积神经网络的知识图谱补全方法研究251
搜索、推荐系统和专家系统等智能应用程序的关键资
源。随着知识图谱的兴起,出现了很多大型知识图谱,如Freebase、DBpedia,但这些知识图谱并不完备,知识图谱中实体间隐含的关系没有被充分挖掘,补全三元组成为亟需解决的问题。近几年,很多工作利用卷积神经网络表示知识图谱中实体和关系,并进行知识图谱补全,从而完善知识图谱。
知识图谱是一种描述真实世界客观存在的实体、概念及它们之间关联关系的语义网络[2],是结构化的语义知识库[3],其中实体使用节点代替,关系用边表示,表示形式为三元组(h,r,t),即(头实体,关系,尾实体)。随着知识图谱规模越来越大,三元组数据稀疏问题愈加严重。知识图谱的表示学习技术将三元组中实体和关系表示成向量,在低维向量空间计算实体和关系的语义联系,解决独热学习维度过高和无法有效表示两个实体的问题。知识图谱表示学习面向知识图谱的实体和关系进行学习,该技术可以有效缓解数据稀疏问题,使知识图谱更加完备。
目前一些知识表示学习算法不能有效解决知识图谱存在的数据稀疏问题,如早期的TransE嵌入模型在处理复杂关系上性能降低。对此,本文提出一种基于CNN(卷积神经网络)的知识图谱补全方法。卷积神经网络为计算机视觉而设计,在自然语言处理领域受到很大关注[4],在某些任务(
如分块、词性标签、命名实体识别和关系分类)上取得了不错效果[5]。与全连接神经网络相比,卷积神经网络学习非线性特征可以捕获复杂关系,且参数数量明显减少[6]。基于CNN的优点,使用其进行知识图谱补全的优点在于:(1)充分考虑到上下文信息和词序,能够学习实体和关系的嵌入向量间的深层联系[6];(2)所需参数较少,计算复杂度低,能够适用大规模知识图谱补全。本文方法使用改进的卷积神经网络对三元组(h,r,t)的嵌入矩阵(h,r,t)进行操作,将三元组矩阵和不同的卷积核进行卷积,把卷积得到的特征图进行连接,将特征图和权重向量作点积运算,用点乘的分数判断三元组正确与否。分数越趋近于0,代表三元组越正确,其中正确三元组分数低于错误三元组分数。
本文使用从Freebase和WordNet抽取的数据集,进行知识图谱补全相关的链接预测和三元组分类实验。实验结果表明,本文方法拥有更好的预测精度,补全效果更好。1 相关工作
1.1 嵌入模型
典型的嵌入模型有TransE[7]、TransH[8]、TransR[9]、TransD[10]等嵌入模型。这些嵌入模型将实体和关系投影到连续的低维向量空间中,即图1中将三元组(h,r,t)投影到低维嵌入空间Rk中,生成(h,r,t)的过程。TransE模型将知识图谱的关系看作是头实体到尾实体的一种平移。给定一个三元组(Beijing,cityOf,
China),TransE将关系向量r作为头实体向量h和尾实体向量t之间的一种平移[11],即h+r≈t,这也表明在嵌入空间中t应该是h+r最近的邻居[12]
图1 实体和关系的低维嵌入
TransE模型只适用一对一关系,在处理复杂关系类型1 N、N 1、N N上模型性能显著降低。例如,给定两个三元组(TheTerminator,_directed_by,JamesCam eron)、(Aliens,_ditrected_by,JamesCameron),为得到头实体TheTerminator和Aliens的向量,使用打分函数h+r≈t进行计算,得到两个相同向量。实体不同,向量就不同,TransE不能有效解决此问题。为了弥补这个缺陷,出现了TransH、TransR等模型。TransR模型对一个给定关系r,定义关系的投影矩阵M
,将实体从实体空间投影到关系r的子空间,利用打分函数h+r≈t计算每个三元组的得分。TransR通过将实体和关系投影到不同的空间,解决了实体和关系属于不同对象时,不能用同一个空间表示的问题。基于TransR这种特性,本文用TransR对数据集中所有三元组进行训练,将得到的向量作为本文算法的输入,使得每个三元组输入时拥有一定的语义信息。
1.2 神经网络模型
上述嵌入模型仅表达了三元组结构信息,没有利用实体或关系的描述文本。文献[13]提出了一种张量神经网络(NTN),用实体名称所有词向量平均值表示该实体,让具有类似名称的实体能够共
享文本信息。DKRL[14]使用连续词袋(CBOW)以及卷积神经网络(CNN)两种表示学习方法来建立实体描述文本的语义向量。OOKB[15]模型是一种基于图神经网络(Graph
252   
计算机应用与软件
2021年
NNs)的模型,将图谱中头实体和尾实体向量进行组合,
形成最终向量。此外,模型DisMult[16]和ComplEx
[17]使用向量点乘计算三元组得分,利用打分函数判定其正确性。
和链接预测模型DisMult相比,ConvE[18]
模型参数
少,计算复杂度低,可以高效训练三元组,获取实体和关系的向量嵌入,同时学习三元组更多的特征表示。ConvE作为使用CNN来补全知识图谱的模型,将头实体和关系向量重组,组合成矩阵作
为CNN卷积层的输入,使用不同的卷积核进行卷积,输出多个特征图,将这些特征图矢量化,映射成一个向量,此向量和尾实体作点积运算得到三元组分数,利用得分判断三元组的正确性。ConvE模型打分函数见表1。ConvE将头实体和关系作为输入矩阵,忽略了三元组的全局特征。为了使用三元组的全局特征,文献[6]提出了ConvKB模型,该模型将三元组(头实体,关系,尾实体)矩阵作为输入,捕获三元组全局特征,利用不同的卷积核进行卷积,通过打分函数得到每个三元组的得分,作为判断三元组正确的依据。从上述两个模型可以看出,卷积神经网络可以提取三元组中实体和关系的特征,然后和不同的卷积核进行卷积,得到相应的特征图,将特征图进行连接得到三元组的整体特征。文献[6]提出使用CNN对三元组进行编码,但只融合进了TransE,没做进一步探索。为充分考虑三元组的结构信息和特征表示,本文使用TransR训练出的三元组矩阵作为本文算法的输入,解决TransE模型不能建模复杂关系的缺陷,同时使用不同的卷积核进行卷积。本文对卷积核形状做了一定修改,同时设置不同的步长数对输入矩阵作卷积运算,对输入的三元组尽可能捕获更多的特征,获取三元组的全局表示特征。以上模型的打分函数如表1所示。
表1 相关模型的打分函数板蓝根种子
模型打分函数大学之道全文
TransEfr(h,t)=h+r-t2
甜杏仁
TransHfr(h,t)=(h-wTrhwr)+r-(t-wT
rtwr)22
TransRfr(h,t)=(hMr+r-tMr)22ConvEg(vec(g(concat(v^h,v^r) Ω))W)·vt
ConvKB
concat(g([vh,vr,vt
] Ω))·w2 算法设计
使用TransR模型训练出的三元组矩阵作为本文算法的输入,并在TransR模型算法的基础上完善了基
于卷积神经网络的算法。给定一个三元组(h,r,t)∈T,h,r∈E,r∈R,即KG=(E,R,T),E为实体集,R是关系集,
T是训练集,每个实体和关系的嵌入维度为N。本文算法如下:
输入:训练集T=(h,r,t),实体集E,关系集R,正则项权重λ,嵌入层维度N。初始化:
 r←u
niform-6槡
N,6
槡()Nforeachr∈R r←r/rforeachr∈R e←u
niform-6槡N,6槡
(
)
Nforeache∈ELoop: e←e/eforeache∈E Tbatch←sample(T,b)//sampleaminibatchofb
 Tbatch
←  for(h,r,t)∈Tbatchd
o  (h′,r′,t′)←sample(T′(h,r,t)
)  Tbatch←Tbatch∪{((h,r,t),(h′,r′,t′))} endfor 更新嵌入层
((h,r,t),(h′,r′,t′))∈Tbatch
Δ
[fr(h,t)+γ-fr(h′,t′)]+
 Input←[
h,r,t]//输入矩阵
 计算concat(g([h,r,t] Ω))·w 更新损失函数 
N∑(h,r,t)∈{T∪T
′}ln(1+exp(f(h,t)·θ))+λw22
+b//θ=±1
EndLoop
本文算法框架图如图2所示。使用(h,r,t)表示每个三元组(h,r,t)相应的嵌入矩阵,令M=[h,r,t]∈
RN×3,Mi,:
∈R2×3表示矩阵的每一行,和不同的卷积核进行卷积。ω是一个2×3的卷积核,和M的每两行重复卷积,得到一个个特征图,连接所有特征图得到的列向量如式(1)所示。
图2 算法框架
v=[g(ω·M1,:+b),g(ω·M2,:+
b),…,g(ω·Mk,:+
b)]∈RN
(1)
第4期   王维美,等:基于卷积神经网络的知识图谱补全方法研究253
列向量和权重向量作点积运算,得到的分数作为
判断三元组是否正确的依据。本文采用不同卷积核进
行操作,形状为2×3,步长为{1,2,3},令步长为1,卷
积核数量ω=m,会产生m个不同的特征图,m个不
同特征图进行连接得到一个列向量v∈Rm(N-1),然后
和一个权重向量w∈Rm(N-1)作点乘。其中,打分函数
越小代表三元组越正确,打分函数如下:
f(h,t)=concat(g([h,r,t] Ω))·w(2)
式中:Ω和w分别是卷积核集、权重,它们都是超参
数;g代表激活函数,本文比较了ReLU和Sigmoid两
通天纹手相
个激活函数,实验结果表明,ReLU卷积效果更好; 代
表卷积操作;concat表示连接操作;[h,r,t]表示算法
的输入矩阵,此矩阵由本文改进后的TransR模型进行
训练得到。最小化损失函数作为最终的训练目标,损
失函数如下:
L=1
(h,r,t)∈{T∪T′}
ln(1+exp(f(h,t)·θ))+λw2
+b
(3)
式中:超参数b为CNN偏置项;为防止过拟合,添加正则项w2
;λ为正则项的权重,在训练阶段得到λ=0.001;(h,r,t)∈T,θ=-1,(h,r,t)∈T′,θ=1,T为正例三元组,T′为负例三元组,构造方法如式(4)所示。
T′={(h,r,t)h′∈E}∪{(h,r,t)t′∈E}(4)即将正确三元组的头实体和尾实体分别用数据集所有实体代替,正例三元组得分低于负例三元组得分。本文使用Adam[20]最小化如式(3)所示的损失函数。3 实 验
3.1 数据集
本文使用从Freebase和WordNet中抽取的3个数据集:FB15k[7]、WN18RR[18]、FB15K 237[20]进行实验。由文献[20]可知,数据集WN18和FB15k包含一些反转关系,这些反转关系会使实验结果显著提高,为保证实验结果的准确性,将数据
集WN18和FB15k中具有反转关系的三元组去掉,得到对应数据集WN18RR和FB15K 237。
数据集FB15k包含1345种关系,14951个实体,592213个三元组,训练集、验证集、测试集大致比率为9∶1∶1。
数据集FB15K 237包含237种关系,14541个实体,310116个三元组,训练集、验证集、测试集大致比率为14∶1∶1。
数据集WN18RR包含11种关系,40943个实体,93003个三元组,分为训练集、验证集、测试集3种,大致比率为28∶1∶1。
数据集统计情况如表2所示。
表2 数据集统计
数据集RelEntTrainValidTest
FB15K1345149514831425000059071FB15K(237)237145412721151753520466WN18RR11409438683530343134
3.2 参数设置
本文使用改进后的TransR训练出三元组矩阵来作为本文算法的输入。使用超参数网格搜索训练TransR3000次,最终超参数设置如下:数据集的嵌入维度N∈{50,100},SGD的学习速率λ
∈{0.1,0.01,0.001,0.0001},间隔γ∈{1,2,3,4,5},归一化采用L1或L2范数。
为了学习实体和关系的嵌入维度N、卷积核ω、权重w、偏置项b这些超参数,本文使用Adam优化器,
其学习速率λ
∈{0.01,0.001,0.0001,0.0005,0.00001,0.00005}。卷积核ω的数值随机初始化,卷积核数量m∈{100,150,200,300,400,600
},损失函数的λ值设置为0.001,所有实验进行500轮的迭代训练。此外,为有效缓解过拟合,根据验证集上的MRR评估指标,通过网格搜索选择dropout值,其值为dropout∈{0.1,0.2,0.3,0.5}。
在经过500次迭代训练后,使用最后一次迭代训练的输出值作为测试集评估,不同数据集最优Hit@10如下:在WN18RR上,Hit@10最优设置为:N=50,
m=600,λ
=0.0005,dropout=0.5;在FBI5K 237上,
Hit@10最优设置为:N=100,m=100,λ
=0.00001,dropout=0.3。
3.3 链接预测
3.3.1 实验设计
链接预测即预测知识图谱中三元组缺失的实体和实体间关系。例如:给定三元组(MichelleObama,resi dence,?),其中:头实体为MichelleObama,关系为resi dence,尾实体缺失,为补全三元组,将American添加到该元组中,对其进行补全;或者(邓超,?,孙俪),该三元组中缺失关系,为补全三元组,将夫妻(或配偶)关系添加进去进行补全。实验采用文献[7]的标准,对测试集中每个三元组(h,r,t),把头实体、尾实体去掉,依次使用数据集所有实体替代,得到负例三元组,对新三元组使用打分函数计算相似性得分,相似度越高排名越靠前,这样可以得到正确实体的真实排名。
254
    计算机应用与软件2021年
3.3.2 评估指标
本文选择平均排名MR(MeanRank)、倒数平均排名MRR(MeanReciprocalRank)、进入前10名的比例(Hit@10)作为本文算法评估指标。三个指标中,MR越低、MRR越高、Hit@10越高,代表算法的效果越好,学习能力越强。数据集中可能存在一些
错误三元组,采用文献[7]的标准,把错误三元组从数据集中删除,删除后的设置为Filter,原来的为Raw。在数据集FB15K 237和WN18RR上,仅使用Filter设置。3.3.3 实验结果和分析
采用相同实验设置情况下,本文实验环境为:Window764位系统,物理内存为8GB。数据集WN18RR和FB15K 237在不同模型下的链接预测结果如表3和表4所示。
表3 WN18RR在不同模型下链接预测结果
模型MRMRRHit@10
IRN———
KBGAN—0.21348.1
DISTMULT51100.43049.0
ComplEx52610.44051.0
ConvE52770.46048.0
TransE33840.22650.1
ConvKB25540.24852.5
本文方法24470.25756.3表4 FB15K 237在不同模型下链接预测结果
模型MRMRRHit@10
蹇红IRN211—46.4
KBGAN—0.27845.8
DISTMULT2540.24141.9
ComplEx3390.24742.8
ConvE2460.31649.1
TransE3470.29446.5沙特馆
ConvKB2570.39651.7
本文方法2450.39454.5
可以看出,本文方法在WN18RR和FB15K 237数据集上均获得了最低的MR和最高的Hit@10。具体分析如下:(1)本文方法与ConvKB模型相比,数据集WN18RR在MR上降低了4.2%,在Hit@10上提高了3.8;数据集FB15K 237在MR上降低了4.7%,在Hit@10上提高了2.8。(2)在数据集WN18RR上,TransE模型的MR指标优于ConvE、ComplEx等模型;TransE模型的Hit@10指标优于ConvE、DISTMUL等模型。可见,基准模型TransE在数据集WN18RR上具有很好的表示效果。(3)和其他模型相比,本文方法具有更好的表示能力,也说明了改进的卷积神经网络用于知识图谱补全具有更好的性能。
3.4 三元组分类
3.4.1 实验设计
三元组分类即判断知识图谱中三元组的正确性。引用文献[9]提出的三元组分类,设置一个阈值,对于任意给定的三元组,使用式(2)所示的打分函数计算得分,如果这个得分低于阈值,则三元组是正确的,否则为错误。
3.4.2 实验结果和分析
参照文献[9],本文使用基准数据集FB15K进行三元组分类实验。实验环境为Window764位系统,物理内存为8GB。FB15K最优参数为N=100,m=300,λ
=0.00005,dropout=0.1。实验结果如表5所示。
表5 三元组分类实验结果
四个转变可以看出:(1)本文方法取得了90.5%的准确率,优于DKRL模型,证明在三元组分类这个任务上本文方法效果更好。(2)基于表示学习的嵌入模型效果都要好于NTN,说明将关系看作头实体到尾实体的平移的嵌入模型更能表示知识图谱中的数据和区分正确的三元组。
4 结 语
本文针对知识图谱补全提出一种基于卷积神经网络的方法,利用三元组全局信息,将三元组矩阵作为算法的输入,和不同的卷积核进行卷积操作,得到不同的特征图,将这些特征图进行连接,得到的向量和权重作点积运算产生一个得分,分数越低三元组越正确。
(1)三元组分类实验结果表明,本文方法优于一些传统嵌入模型,在链接预测实验中,在MR、MRR、Hit@10指标上有了明显提高,从这三个指标可以看出本文方法解决了知识图谱中数据稀疏问题,提高了知识图谱的完备性。

本文发布于:2023-06-09 18:02:51,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/913221.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:三元组   实体   关系   图谱
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图