面向中文基础教育知识图谱的关系抽取模型

更新时间:2023-06-24 08:50:33 阅读: 评论:0

第43卷第2期㊀2021年3月㊀
湖北大学学报(自然科学版)
Journal of Hubei University(Natural Science)在线中译英
㊀Vol.43㊀No.2㊀㊀
Mar.2021
收稿日期:20200928
基金项目:国家自然基金项目(61977021)㊁国家重点研发计划(2017YFB1400602)㊁湖北省技术创新重大专项(2018ACA13)和湖北省没离开过原唱是谁
教育厅青年人才项目(Q20171008)资助
作者简介:单娅辉(1995),女,硕士生;张龑,通信作者,教授,主要研究方向为信息安全㊁数据库,E -mail:zhangyan@hubu.edu
文章编号:1000
2375(2021)02
0214
06
面向中文基础教育知识图谱的关系抽取模型
单娅辉,田迎,张龑
(1.湖北大学计算机与信息工程学院,湖北武汉430062;2.湖北省教育信息化工程技术研究中心,湖北武汉430062;
3.绩效评价信息管理研究中心(湖北大学),湖北武汉430062)
摘要:在构建中文基础教育知识图谱过程中,使用远程监督的方法能够有效解决训练语料匮乏的问题,同时使用神经网络模型能够提升构建过程中关系抽取的准确率.为了缓解远程监督中引入的错误标签带来的影响,模型通过双向门限循环单元(bidirectional gated recurrent unit)获取双向上下文中的语义信息,同时引入句子层注意力机制,动态降低噪声
数据的权重.在基于中文信息技术教材教辅和百度百科的基础上构建的知识库上的关系抽取实验表明,引入句子层注意力机制能够促进模型的关系抽取效果,模型的准确率相比于中文主流关系抽取方法提高了4%~5%,能更好地应用于知识图谱的构建.
关键词:中文关系抽取;注意力机制;远程监督;基础教育;知识图谱
中图分类号:TB324.1㊀㊀文献标志码:A㊀㊀DOI :10.3969/j.issn.1000-2375.2020.00.007
著录信息:单娅辉,田迎,张龑.面向中文基础教育知识图谱的关系抽取模型[J].湖北大学学报(自然科学版),2021,43(2):214-219.
Shan Y H,Tian Y,Zhang Y.A relation extraction model oriented to the knowledge graph of Chine basic education [J].Journal of
Hubei University(Natural Science),2021,43(2):214-219.
A relation extraction model oriented to the knowledge
graph of Chine basic education
SHAN Yahui,TIAN Ying,ZHANG Yan
(1.School of Computer Science and Information Engineering,Hubei University,Wuhan 430062,China;mad dog
2.Rearch Center of Educational Informatization Engineering and Technology,Hubei University,Wuhan 430062,China;
3.Rearch Center of Information Management for Performance Evaluation,Hubei University,Wuhan 430062,China)
Abstract :In the process of constructing a knowledge graph of Chine basic education,the u of remote
supervision can effectively solve the problem of lack of training corpora,and the u of neural network models
can improve the efficiency of relation extraction during the construction process.In order to mitigate the impact
of incorrect labels introduced in remote supervision,the model obtains mantic information in a bidirectional
context through a bidirectional gated recurrent unit,while introducing a ntence-level attention mechanism to
dynamically reduce the weight of noisy data.The relationship extraction experiments on the knowledge ba
built on the basis of Chine information technology teaching materials and baidu encyclopedia show that the
introduction of ntence-level attention mechanism can promote the relationship extraction effect of the model.
The mainstream relation extraction method is improved by 4%-5%,which can be better applied to the construction of knowledge graph.
Key words :Chine relation extraction;attention mechanism;remote supervision;basic education;
knowledge graph
第2期单娅辉,等:面向中文基础教育知识图谱的关系抽取模型215
0㊀引言
随着我国信息技术的发展,通过新兴技术来直接或间接影响传统教育教学方式,已成为教育信息化的新热点.2012年,Google提出 Google Knowledge Graph 后,知识图谱在各个领域受到了广泛的关注,其中教育领域知识图谱更是在近年来成为研究热点.在构建中文教育领域知识图谱的过程中,面对急剧增长的数据,中文实体关系抽取成为其中的难点之一.
传统的关系抽取方法主要包括两类,一类是基于规则匹配的方法,另一类是基于深度学习的方法.其中基于规则匹配的方法是定义了一种表达实体关系的规则模版,然后在数据中找到与该模版相匹配的实体及关系.该方式对数据要求较高且灵活性很差[1],已逐渐被深度学习的方法所取代.基于深度学习的方法目前流行的包括有监督的方法和远程监督的方法[2].其中,有监督的关系抽取方法主要是利用深度学习中的神经网络模型能够自动学习文本的特征,改善了经典方法中需要人工特征选择的缺点[3].远程监督的关系抽取方法是将大量无标注的数据自动对准已标注的知识库来自动标注数据来提高关系抽取的效率.该方法的前提是,如果两个实体间存在已定义的某种关系,那么所有包含这两个实体的文本都存在该关系[4].Mintz等[5]提出使用Freeba知识库与维基百科中的文本来对齐,获取实体及其关系的三元组.在该前提下,基于远程监督的关系抽取能够自动获取大量的训练实例,但是同时也不可避免地
存在许多噪声数据.王斌等[6]用远程监督的方法进行关系抽取时,通过采用LDA(latent dirichlet allocation)模型㊁对比类型相似度和对关键词进行模式匹配去噪.Surdeanu等[7]提出加入多标签来减少噪声数据对关系抽取性能的影响.Lin等[8]提出在加入注意力机制在训练过程中通过动态调整各实例的权重来降低噪声数据的权重,从而减少错误实例对关系抽取模型性能的影响.
以上方式大多是基于英文语料或者中文通用语料上[9]提出的模型,而在中文教育领域,杨玉基等[10]提出在构建领域知识图谱过程中使用有监督㊁无监督㊁远程监督多种方法来进行关系抽取,最后使用大量人工标注来获取高质量数据,耗费时间精力.黄焕等[11]在构建java知识图谱的过程中采用人工定义关系类型,且在识别实体关系的过程中采用手工标注关系的方式,虽然保证了数据的准确性,但适用性不强.本研究提出的实体关系抽取模型适用于中文基础教育中的科目,将高质量的教材教辅通过文本处理成已标注的知识库,通过远程监督能够获取大量数据并自动标注,加入的句子层注意力更能有效减少噪声数据对于关系抽取性能的影响.
1㊀远程监督构建关系语料库
由于中文领域公开的可供使用的数据很少,而基础教育领域的就更少见,所以首先利用教育部发布的基础教育的教材教辅,将其转换成可供使用的电子文本;然后结合网络爬虫从百度百科上获取的网页数据,通过预处理得到关系实体对以及包含实体对的文本集;最后选取其中一部分数据作为训练数据对关系抽取模型进行训练,另一部分作为测试数据来检测模型关系抽取的效果.构建流程如图1所示.
图1㊀构建流程
1.1㊀构建信息技术知识库㊀基于教育部发布的基础教育中信息技术学科的教材教辅,利用OCR技术
216㊀湖北大学学报(自然科学版)
第43卷
将图像中的文字转换成文本格式存储,使用词频-逆向文件频率[12](term frequency-inver document frequency,TF-IDF)算法和TextRank [13]算法对文本集进行关键词抽取,TF-IDF 算法是一个统计词语在该
文件中的重要程度的方法,其核心思想是词语的重要性与它在该文件中出现的次数成正比,同时与它在语料库中出现的次数成反比.TF-IDF 算法考虑了词语出现的频率等因素,但是没有考虑与其他词语的关联性,而TextRank 算法就考虑到了词语之间的关联程度.TextRank 算法起源于Google 团队的PageRank 算法,其核心思想是,如果网页节点代表一个字词,那么这个词语的重要性与连接其他词语的多少和与它连接的词语权值的高低成正比.
全职英语翻译
分别使用以上两种算法对文本进行关键词提取,得到了 数据库  信息安全  信息资源管理  计算机病毒 等核心概念,但同时也得到了一些出现频率高,却不是核心概念的词,如 学生  方法  过㊀㊀㊀㊀程 等.结合信息技术领域专家的指导,得到最终的学科实体并且定义了基础教育领域信息技术中实体的2种属性关系: 同级  父级 .如表1所示,构建了包括2种属性关系及其对应的3563个
实例的知识库.
上海世博会会徽
表1㊀关系及其对应实例
关系名称实例
父级<;数据库,数据库管理>
同级
<;音频,视频>
1.2㊀构建关系实例集㊀在远程监督构建关系实例集中,如果我们文本集中的句子包含的实体对在知识库中有对应的关系,那么我们认为该句子可以描述此关系.以关系实体对<;信息技术,传感技术,父级>为例,可以在文本集中找到包含 信息技术 和 传感技术 的句子:1)[传感技术]同计算机技术与通信一起被称为[信息技术]的三大支柱;2)[信息技术]包括[传感技术],通信技术和电子计算机技术等,将这两个句子分别提取出来,作为 父级 关系的两个实例, 信息技术传感技术父级传感技术同计算机技术与通信一起被称为信息技术的三大支柱 , 信息技术传感技术父级信息技术包括传感技术,通信技术和电子计算机技术等 ,为了方便模型训练,我们将关系实例的各个部分用空格符分割,这些关系实例构成我们使用的关系实例数据集
.
图2㊀模型训练流程
2㊀关系抽取模型设计
本研究提出一种面向中文基础教育知识图谱的关系抽取模型,基于权威教材教辅和远程监督构建的关系数据集,转化成词向量模型供模型训练,通过双向门限循环单元获得句子上下文语义,引入句子层注意力机制来动态降低句子噪声权重,提升了关系抽取模型的准确率.模型训练算法如图2所示.
2.1㊀词向量映射训练㊀为了将数据转换成模型可识别的形式,我们需要将文本数据向量化.Mikolov 等[14]提出了分布式的词向量表征word2vec,即一个词用一个低维向量来表示,词与词之间的相似性可以通过向量之间的相关性表示,其中包括2个模型,连续词袋(Continuous Bag-of-Words,CBOW )模型和Skip-Gram 模型,
由于Skip-Gram 模型在语义关系识别方面效果
较好,所以本研究采用word2vec 中的Skip-Gram 模型来对词向量模型进行训练,使用知识库中所有的三元组来进行训练,其中模型参数设置的窗口数为5,向量维度为200.
2.2㊀BI-GRU ㊀传统的循环神经网络通过权重矩阵使神经网络具备了记忆功能,但是由于梯度爆炸和梯度消失的存在,它不能记忆太前和太后的内容.GRU 网络是由Chung 等[15]对LSTM 网络(一种循环
神经网络)进行改进得到的一种结构,由于门控机制,很大程度上弥补了梯度爆炸或梯度消失所带来的
第2期单娅辉,等:面向中文基础教育知识图谱的关系抽取模型
217
图3㊀GRU 内部结构
损失,同时它简化了LSTM 网络,只有更新门(update gates)和重置门(ret gates)两种门结构,因此参数更
少,也更容易收敛㊂其内部结构如图3所示.英语口语教程
其更新表达式为:h t =z t  h t -1+(1-z t ) hᶄ(1)
h t
-1
包含了前一时刻节点的相关信息,z t 表示更新门,
hᶄ表示当前时刻节点的相关信息,主要是包含了当前的输入x t .从公式中可以得到,z t 能控制遗忘和记忆的信息量,它的取值范围为0~1,越接近1,代表 记忆 下来的前一时刻节点信息越多;越接近0则代表 遗忘 的越多.z t 计算表达式为:
z t =σ(W z ㊃[h t -1,x t ])(2)σ为sigmoid 函数,这个函数使数据的取值范围为0~1来表示成门控信号,重置门r t 计算表达式为:r t =σ(W r ㊃[h t -1,x t ])
(3)㊀㊀
hᶄ计算表达式为:
hᶄ=tanh(W ㊃[r t ∗h t -1,x t ])
(4)
上述公式中W z ,W r ,W 为权值矩阵,用于模型训练,x t 表示当前的输入信息.我们通过上一个节点传输下来隐状态的h t
-1
和当前输入的信息x t 来得到更新门z t 和重置门r t ,然后使用重置门r t 将重置之后的数
据通过σ激活函数缩放到-1~1的范围,最后由更新门z t 对原本隐藏状态的选择性 遗忘 和对当前信息选择性 记忆
.
图4㊀Bi-GRU 内部结构
为了能够捕获词语的前后特征,本研究采用双向GRU (Bi-GRU )网络作为模型的一部分来提高模型的性能,从而更好地进行关系抽取.Bi-GRU 的结构如图4所示.
在每一时刻,模型的输入数据会同时经过两个方向相反的单向GRU,
而后通过它们进行输出.
2.3㊀句子层注意力㊀使用远程监督的方法构建实例数据集中,自动获取的实例有时候并不包含该关系,为了减少噪声数据的影响,本文引入了句子层注意力机制.对于含有相同实体对的m 个句子向量集合s ={s 1,s 2,s 3, ,s m },s i 为句子向量,句子向量为s 中所有句子的加权,其表达式T 为:
T =
ðm
i =1
k i s
i
(5)其中,权重K i 表示句子S i 与对应关系R 的相关程度,其表达式为:
k i =softmax (s i Ar )(6)
其中,A 为初始化的加权对角矩阵,r 为对应关系R 的向量表示.
3㊀实验与分析
3.1㊀实验数据㊀由于目前还没有通用和权威的针对基础教育信息技术这一领域的公开数据集,因此本研究基于教育部发布的教材教辅采用远程监督的方法构建了关系实例数据集.针对基础教育知识图谱的特性,本文中所构建的语料包含2类属性关系: 同级  父级 ,包含了106332个关系实例.本研究实
验随机选取数据集80%的关系实例数据作为训练数据,其余的20%的关系实例作为测试数据,图5为关系实例数据集片段.
3.2㊀评估标准㊀本研究使用准确率(P Precision )㊁召回率(R Recall )㊁F 值(F1-score)作为模型的评估标准,来
218㊀湖北大学学报(自然科学版)第43
图5㊀关系实例片段
评估关系抽取模型的效果.其计算公式如式(7)~(9)所示:
P Precision =TP TP +FP
(7)R Recall =
TP TP +FN
(8)F =2∗
P Precision ∗R Recall P Precision +
R Recall
noother
(9)
其中,TP (true positive)表示测试集中该关
系的正例被匹配到的数值,FP (fal positive)表示测试集中该关系的正例未被匹配到的数值,FN (fal negatives)表示测试集中该关系的负例被错误匹配的数值.
3.3㊀实验结果及分析㊀为了验证本文中方法的有效性和适用性,设置3组实验进行对比.㊀㊀实验一:在远程监督构建数据的实验上,加入的句子层注意力机制能够减少噪声数据,为了验证去噪数据和未去噪数据关系抽取效果,对于两种关系类型,采用BIGRU 与BIGRU +Attention 模型进行对比
实验.实验结果如表2所示.
大学英语四级答案表2㊀BIGRU 与BIGRU +Attention 模型实验结果
关系类型BIGRU BIGRU +Attention
P
R
F P R
F
同级74.21%73.55%73.88%83.18%82.41%82.79%父级
74.33%73.62%73.97%83.11%82.45%
82.78%
㊀㊀从表2可以看出,加入了句子层注意力机制后,模型的实验结果指标均有提高.主要原因是句子层注意力机制能够减少训练语料的噪声数据,更有效地捕捉句子的特征,使得模型训练得更好,故关系抽取效果更好.
㊀㊀实验二:通过神经网络进行远程监督的关系抽取模型中,PCNN +Attention 模型
通过加入句子层注意力来减少噪声标注,对于两种关系类型,采用BIGRU +Attention 与PCNN +Attention 模型进行对比实验.实
验结果如表3所示.
表3㊀PCNN +Attention 与BIGRU +Attention 模型实验结果关系类型PCNN +Attention
BIGRU +Attention
P R
F P R
F
犯罪心理第七季名言同级78.41%77.52%77.96%83.18%82.41%82.79%父级
78.62%77.75%78.18%83.11%82.45%
82.78%
㊀㊀从表3可以看出,在同样加入句子层注意力机制的远程监督方法中,相比于PCNN 神经网络,BIGRU 神经网络模型有着更高的准确率和召回率,模型提高了5%左右,这表明BIGRU 模型能够提升关系抽取的效果.
实验三:由于中文教育知识图谱的实体关系不同于通用领域的实体关系,目前已知的一些中文教育领域知识图谱实体关系使用支持向量机(SVM),条件随机场(CRF)进行关系抽取,为了验证本文中关系抽取模型对于构建中文教育知识图谱的适用性,在相同条件下,采用SVM 和CRF 模型进行对比实验.实验结果如表4所示.
表4㊀SVM 、CRF 与本文中模型实验结果
关系类型SVM CRF 本研究模型
P R F P R F P R F 同级79.31%79.66%79.48%80.12%80.32%80.22%83.51%82.76%83.13%父级
80.02%
79.33%
79.67%
80.38%
80.45%
80.41%
rtre84.44%
83.57%
84.00%
㊀㊀从表4可以看出,本研究所提出的关系抽取模型在中文基础教育数据中的关系抽取的F 值更高,模型性能更好,适用性更强.主要原因是本研究加入的句子层Attention 机制能够减少数据中的噪声问题,
同时双向GRU 能够解决SVM 模型在关系抽取的过程中丢失了词语位置信息的缺点.

本文发布于:2023-06-24 08:50:33,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/155831.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:关系   模型   数据   抽取
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图