融合外部语义知识的中文文本蕴含识别

更新时间:2023-05-03 00:38:06 阅读: 评论:0

第47卷第1期
Vol.47No.1计算机工程Computer Engineering
2021年1月
January 2021
融合外部语义知识的中文文本蕴含识别
李世宝,李
贺,赵庆帅,殷乐乐,刘建航,黄庭培
(中国石油大学(华东)海洋与空间信息学院,山东青岛266580)
摘要:基于神经网络的文本蕴含识别模型通常仅从训练数据中学习推理知识,导致模型泛化能力较弱。提出一
种融合外部语义知识的中文知识增强推理模型(CKEIM)。根据知网知识库的特点提取词级语义知识特征以构建注意力权重矩阵,同时从同义词词林知识库中选取词语相似度特征和上下位特征组成特征向量,并将注意力权重矩阵、特征向量与编码后的文本向量相结合融入神经网络的模型训练过程,实现中文文本蕴含的增强识别。实验结果表明,与增强序列推理模型相比,CKEIM 在15%、50%和100%数据规模的CNLI 训练集下识别准确率分别提升了3.7%、1.5%和0.9%,具有更好的中文文本蕴含识别性能和泛化能力。关键词:中文文本蕴含;自然语言推理;注意力机制;双向长短期记忆网络;知网;词林开放科学(资源服务)标志码(OSID ):
中文引用格式:李世宝,李贺,赵庆帅,等.融合外部语义知识的中文文本蕴含识别[J ].计算机工程,2021,47(1):44-49.
英文引用格式:LI Shibao ,LI He ,ZHAO Qingshuai ,et al.Chine textual entailment recognition fud with external mantic knowledge [J ].Computer Engineering ,2021,47(1):44-49.
Chine Textual Entailment Recognition Fud with
External Semantic Knowledge
LI Shibao ,LI He ,ZHAO Qingshuai ,YIN Lele ,LIU Jianhang ,HUANG Tingpei
(College of Oceanography and Space Informatics ,China University of Petroleum (East China ),Qingdao ,Shandong 266580,China )
【Abstract 】The textual entailment recognition model bad on neural network learns inference knowledge only from
training data ,which leads to the weak generalization ability of the model.This paper propos a Chine Knowledge Enhanced Inference Model (CKEIM )fud with external mantic knowledge.Bad on the features of the HowNet knowledge ba ,the features of word -level mantic knowledge are extracted to construct an attention weight matrix.At the same time ,the mantic similarity features of words and hyponymy features are lected from the CiLin knowledge ba of synonyms to form the feature vector.Finally ,the attention weight matrix ,the feature vector and the encoded text vectors are integrated into the training of the neural network model to implement enhanced recognition of Chine textual entailment.Experimental results show that compared with the Enhanced Sequential Inference Model (ESIM ),CKEIM improves the recognition accuracy by 3.7%,1.5%and 0.9%respectively on CNLI training ts of 15%,50%and 1
00%data scales ,which demonstrates that it has better Chine textual entailment recognition performance and generalization ability.
【Key words 】Chine textual entailment ;natural language inference ;attention mechanism ;Bi -directional Long Short -Term Memory (BiLSTM )network ;HowNet ;CiLin DOI :10.19678/j.issn.1000-3428.0056841
0概述
文本蕴含识别也称为自然语言推理,是一项基础
而又重要的自然语言处理任务。该任务给定前提文本
(P )与假设文本(H ),然后从语义层面识别出P 和H 之
间的单向推理关系,包括蕴含、矛盾、中立3种关系[1],并且在文本蕴含识别任务上所取得的进展可进一步提
高文本摘要、语义搜索、阅读理解和问答等任务的性能[2]
基金项目:国家自然科学基金(61972417,61872385);中央高校基本科研业务费专项资金(18CX 02134A ,19CX 05003A -4,18CX 02137A )。作者简介:李世宝(1978—),男,副教授、硕士,主研方向为无线通信、自然语言处理;李贺、赵庆帅、殷乐乐,硕士研究生;刘建航、黄庭培,
副教授、博士。收稿日期:2019-12-09
修回日期:2020-01-17
E⁃mail :****************
人工智能与模式识别
文章编号:1000-3428(2021)01-0044-06
文献标志码:A
中图分类号:TP391.1
第47卷第1期李世宝,李贺,赵庆帅,等:融合外部语义知识的中文文本蕴含识别
早期研究多数采用统计及机器学习方法进行文本蕴含识别[3]。近年来,端到端训练的神经网络模
型在阅读理解、情感分析和机器翻译等自然语言处理任务中表现出色,由此研究人员提出了一些组合多种神经网络和注意力机制的文本蕴含识qq头像简约 别模型,并且经过大量数据训练,鹃的组词是什么 取得了相当高的训练精度。这些文本蕴含识别模型大致可以分为两类。一类侧重编码器设计,能够较好地对句子特征进行编码,并且整体网络结构简单,是早期的主流方向。文献[4]使用长短期记忆(Long Short-Term Memory,LSTM)网络分别学习前提和假设的句子表示并对其进行串联及分类。文献[5]进一步使用双向LSTM(Bi-directional LSTM,BiLSTM)网络对句子进行编码,并运用句子内自注意力机制更好地增强句子编码能力。文献[6]设计HBMP模型进行句子编码,相比使用单一的BiLSTM层效果更佳。另一类注重句间交互,引入句间注意力机制提取句子之间的语义信息,能够更好地识别句子之间的语义关系。文献[7]提出一个逐词注意力模型,对文本中隐含的前提和假设之间的关系进行编码。文献[8]对文献[沸腾的意思 7]做了进一步扩展,解决了学习注意力权重前提下单个向量表示的局限性问题。文献[9]提出双向多视角匹配机制,分析并对比了多种注意力机制的匹配策略。文献[10]提出一种增强序列推理模型(Enhanced Sequential Inference Model,ESIM),利用两层不同的BiLSTM网络和注意力机制对文本进行编码。
但是由于上述模型仅从训练数据中学习推理知识,受限于训练数据集规模,导致模型泛化能力较弱[11],因此文献[12]利用WordNet作为外部知识,增强了模型在不同测试集上的泛化能力,为结合外部知识的相关研究提供了参考。文献[13]在模型中使用多个英文知识库,并引入知识图概念,
提高了模型识别性能。然而,基于神经网络的文本蕴含识别在中文领域的研究较少[14],且知网(HowNet)等中文外部语义知识库与WordNet 知识库有较大区别,使得无法直接迁移并应用基于英文数据集的文本蕴含识别模型。因此,本文提出中文知识增强推理模型(Chine Knowledge Enhanced Inference Model,CKEIM),通过分析中文语义知识库的特点,精确提取词级的语义知识特征以构建注意力权重矩阵,同时将其融入神经网络训练过程。
1知识库处理
1.1知识库结构分析
HowNet知识库[15]的层次结构为词语-义项-义原,其包含2000多个基础义原,将词语从语义上进行拆分,同一个词语的不同含义分为多个义项,每个义项又由多个义原组合而来。如图1所示,词语“苹
果”有多种含义,分别代表“电脑”“手机”“水果”以及“树木”。每一种含义表示一个义项,用多个义原加以注解。在HowNet中,使用“样式值”“携带”“特定品牌”和“电脑”等义原描述“苹果”表示电脑品牌时的义项,并以树状结构进行组织。本文忽略了义原之间的结构关系,并且对于每个词语,将其所有的义原归类为无序集。
同义词词林[16]将中文同义词以及同类词进行划分和归类,分为5层层次结构,其中1层~4层仅包含分类编码信息,没有具体词汇。本文使用改进版同义词词林[17]将原子词群中较抽象的概念提取到1层~4层的分类节点中,使1层~4层的分类节点包含代表整个类别的具体概念,如提取“生物”“人”“植物”“动物”等抽象概念并将其放置于大、中、小3类高层节点中。
为方便表述,本文使用的符号定义如下:HowNet 中所有的义原、义项和词语集合分别表示为、S和W;语料库包含K=||个义原、M=|S|个义项以及N=|W|个词语;S w表示词语w∈W所包含的义项集合;w⊂={e k}K k=1表示词语w所包含义原的无序集合;s表示义项s∈S w所
包含义原的无序集合。
1.2知识库特征提取
通过HowNet知识库结构可知,在使用HowNet 知识库计算两个词语的相似度时,如“苹果”和“梨”的相似度,由于“梨”只有“水果”1种义项,而“苹果”有“电脑”“水果”“手机”“树木”4种义项,这样就会出现4个差距相当大的相似度,如果取相似度的最大值或者平均值,则会造成误差,而在相互为多义词的词语之间计算相似度会产生更大的误差。本文设计一个义项选择器结构,如图2所示,在模型训练时根据词语p5的上下文信息p1、p6等,计算出其与各个义原匹配的概率,进而选出当前词语p5所代表的真正义项,
然后进行词语间的相似度计算。
图1HowNet结构示意图
Fig.1Schematic diagram of HowNet structure
45
计算机工程2021年1月15日
对于义原概率预测器,假设给定上下文w 1,w 2,…,
w t ,…,w n ,经过BiLSTM 网络编码后,得到词语w t 的上
下文向量g t ∈R H 0
,H 0为向量g t 的维度。将g t 输入到预测器中,可生成词语w t 包含的每个义原e k 与g t 的关联度。由于义原是最小的语义单位,任何两个不同的义原之间不存在语义重叠,因此词语w t 包含的义原e k 事件为独立,当前词语w t 在上下文语境中编码后得到的上下
文向量g t 与义原e k 的关联度可表示为t
k (e k |g t
),如式(1)所示:
t
k (e k |g t )
=((g t )T v t k +b t k ),e k ∈w t
(1)
其中:
v t k ∈R H 0
表示当前词语w t 所包含义原e k 的200维嵌入向量,由SAT 模型[18]训练的义原向量进行初始化;b t k ∈R 表示训练参数,且随着网络训练进行更新。
由于该预测器的输出为概率值,表示当前词语w t 包
含的各义原e k 与上下文向量g t 关联的概率值,并且网络层数为单层,因此将sigmoid 作为激活函数(*)。
对于义项概率预测器,由于一个义项会包含一个或多个义原,因此根据在义原概率预测器中得到的e k 与g t 的关联概率t k
,可进一步得到词语w t 中各义项s 与g t 匹配的概率P (s|g t ),如式(2)所示:P (s |g t )=1||s ∑e k
s t
k (e k |g t )
,s ∈S w t
(2)由以上设计的义项选择器可计算出词语w t 在当前语境下概率最大的义项s max 。在确定义项后,根据混合层次结构的HowNet 词语相似度计算方法
[19]
,精
确计算出词语w i 和w j 在具体语境中的相似度Z ij 。
由于提取的同义词词林特征包含词语相似度特征以及词语上下位特征,因此将基于信息内容的词林词语相似度计算方法
[17]
作为相似度特征的提取方法,使
提取到的词语w i 和w j 之间的相似度表示为C ij 。同义词词林共5层结构,设层次结构中两个词语之间的距离
为n ,可提取的词语间上下位信息具体包括:
1)上位词特征S ij :如果一个词语w j 是另一个词语
w i 的上位词,该特征取值为1-n/4,如[苹果,水果]=0.75,[苹果,植物]=0.5。
2)下位词特征X ij :与上位词特征正好相反,如[水果,苹果]=0.75。
最终将外部语义知识库中提取到的4个特征组合成特征向量R ij =[Z ij ,C ij ,S ij ,X ij ],并将其作为外部语义知识融入神经网络中。
2
CKEIM 模型
在CKEIM 模型中,设前提语句p =[p 1,p 2,…,
p l p
],假设语句h =[h 1,h 2,…,h l h
],首先对语句进行编
码,使用预训练的词向量对词语进行初始化,然后输入BiLSTM 网络进行编码,获得上下文相关的隐层
向量p i 和h j ,如式(3)、式(4)所示:
p i =BiLSTM (E (p ),i ),∀i ∈{1,2,…,l p }(3)h j =BiLSTM (E (h ),j ),∀j ∈{1,2,…,l h }
(4)
其中,(E (p ),i )表示前提语句p 的第i 个词语初始化后的词向量,(E (h ),j )表示假设语句h 的第j 个词语始化后的词向量。
根据HowNet 知识库中提取的词语相似度特征
Z ij ,结合BiLSTM 网络输出的隐层向量p i 和h j 的内积U ij =(p
i )T h j 可计算出知识增强的协同注意力权重M ij ,如式(5)所示:
M ij =U ij +Z ij
(5)
其中,为超参数。将得到的注意力权重归一化后可得到注意力权重矩阵ij 和ij ,进而得到前提语句中的每个词语在假设语句中相关语义信息的向量表示p m i ,以及假设语句中每个词语在前提语句中相关语义信息的向量表示h m j ,
如式(6)、式(7)所示:p m
i
=∑j =1l h
ij h
j ,ij =exp(M ij )
∑k =1l h
exp(M
ik
)
(6)
h m j
=∑i =1
l p
ij p
i ,ij =exp(M ij )
∑k =1
l p exp(M
kj
)
(7)
将上下文向量p i (h j
)与经过外部知识融合的向量p m i (h m
j )
拼接后进行比较并进一步拼接两者之差和两者逐位乘,再把从外部语义知识中获取的特征向量R ij 加权后拼接,输入非线性映射函数F 中,得到加
权后的关系向量p c i 和h c j ,
如式(8)、式(9)所示:p c i =F ()
p i ;p m i ;p i -p m i ;p i ☉p m i ;∑j =1l
h
ij R ij (8
图2义项选择器结构
Fig.2
Structure of n lector
46
第47卷第1期李世宝,李
贺,赵庆帅,等:融合外部语义知识的中文文本蕴含识别
h c j =F ()
h j ;h m j ;h j -h m j ;h j ☉h m j ;∑i =1l
p
ij R ji (9)
其中,F 是前馈神经网络,其以ReLU 为激活函数。
经过拼接并降维后得到的关系向量包含了大量词语间的推理信息,需要进行组合并提取出语句级的推理信息,因此再用一层BiLSTM 网络进一步收集并组合这些信息,提取前提和假设文本之间语句级的推理关系,得到包含语句级推理关系的向量p v i
和h v j ,
如式(10)、式(11)所示:p v i =BiLSTM (p c i ,
i )(10)h v j =BiLSTM (h c j ,
j )(11)
首先将输出的隐层向量p v i 和h v j 输入池化层,
分别经过均值池化、最大池化和加权池化得到固定长度的向量。然后将其拼接后输入到多层感知机(Multilayer Perceptron ,MLP )中进行分类。最后以最小化交叉熵损失为目标,对整个模型进行端到端训练。CKEIM 模型结构如图3所示。
3
实验结果与分析
3.1
实验数据集
本文在RITE 和CNLI 两个中文文本蕴含数据集
上进行相关实验。
1)RITE :该数据集收集了2012年和2014年日本
国立情报学研究所组织的NTCIR 项目发布的2600个
文本对,其中,训练养蚯蚓 集中有2000个文本对,测试集中有600个文本对。数据集涵盖多音字、同音字等多种语言
现象,包括人文、历史、政治等多种题材,并且以识别准确率作为评价标准。
2)CNLI :该数据集由SNLI 数据集通过机器翻译
和人工筛选得到,包括145000个文本对,其中,训练集有125000个文本对,验证集和测试集各有10000个文
本对,分类结果包括蕴含、矛盾和中立3种关系,每个文本对具有唯一的标签,并且以识别准确率作为评价标准。3.2
实验参数设置
CKEIM 模型的实验参数设置如下:单词嵌入与BiLSTM 网络隐藏层的维度均为200维,使用腾讯AI 实验室[20]发布的200维中文词向量初始化词嵌入,词表中不存在的词语会随机初始化;将Adam [21]作为随机梯度优化策略,初始化学习率为0.0004,批处理(Mirri -batch )大小为32;利用哈尔滨工业大学的LTP 语言云[22]作为中文分词工具。
为便于对比,ESIM 等基线模型的实验参数、实验环境、实验设置与CKEIM 模型相同。首先从集合{0.2
图3CKEIM 模型结构
Fig.3
Structure of CKEIM model
47
计算机工程2021年1月15日
0.5,1,1.5,2,5,10,15,20}中依次选取计算注意力权重的超参数并在训练集上进行训练。然后根据测试集的实验结果选择效果最优的值,再以此值为基础,通过调整(0.1~0.5)的步长改变值,直到找到实验效果最优的值。最后得到CNLI数据集的最佳值为1,RITE数据集的最佳值为20。
3.3结果分析
表1为本文CKEIM模型与BiLSTM+广义池化层模型、BiLSTM+句内注意力模型[5]、BiLSTM+最大池化层模型[6]、HBMP模型[6]和ESIM模型[10]在大规模CNLI数据集上的识别准确率对比。由于在神经网络中结合外部知识的文本蕴含识别模型都是基于英文知识库,无法在中文数据集上进行比较,因此本文选择其基础模型ESIM作为主要基线模型,同时与其他经典模型进行对比。表2为CKEIM模型与BiLSTM+广义池化层模型、BiLSTM+句内注意力模型、HBMP模型和ESIM模型在小规模RITE数据集上的识别准确率对比。
由表1可以看出,CKEIM模型在大规模CNLI数据集上达到81.4%的识别准确率,比ESIM模型提高了0.9个百分点,也明显优于其他经典模型。由表2可以看出,CKEIM模型在小规模RITE数据集上优势更加明显,超出ESIM模型3.3个百分点。可见,CKEIM模型在两种数据集上都要优于ESIM基线模型及其他经典模型,且在小规模RITE数据集上优势更加明显,因此其泛化能力更强,从而说明本文CK⁃EIM模型通过将中文外部语义知识融入神经网络,提高了模型识别准确率和泛化能力。
为比较不同规模训练集下外部语义知识对识别效果的影响,更进一步验证模型识别准确率和泛化能力,将CNLI数据集进行拆分并在整个训练集上随机采样得到原训练集4%、15%、50%和100%数据规模的训练集,然后分别在这宪法条文 些训练集上对本文CKEIM模型与BiLSTM+广义池化层模型、BiLSTM+句内注意力模型、HBMP模型和ESIM模型进行训练,得到如表3所示的实验结果,并据此得到如图4所示的柱状图,其中:对于4%和15%数据规模的训练集,设置最佳值为5;对于50%和100%数据规模的训练集,设置最佳值为1。
由表3和图4的数据可以看出,当训练数据非常有限时,即只有4%数据规模的训练集时,ESIM模型的识别准确率为59.5%,而CKEIM模型为63.0%,超出其3.5个百分点。在15%、50%和100%数据规模的训练集下识一带一路股票 别准确率始终都高于ESIM模型,提升比例分别为3.7%、1.5%和0.9%,整体呈递减趋势。该结果进一步说明融合外部语义知识的CKEIM模型
表25种模型在RITE数据集上的识别准确率对比Table2Comparison of recognition accuracy of
five models on RITE datat%
模型BiLSTM+广义池化层模型BiLSTM+句内注意力模型
HBMP模型
ESIM模型
CKEIM模型识别准确率
65.3
66.8 64.6 69.0 72.3
表16种模型在CNLI数据集上的识别准确率对比Table1Comparison of recognition accuracy of
six models on CNLI datat%
模型BiLSTM+广义池化层模型BiLSTM+句内注意力模型BiLSTM什么的背影 +最大池化层模型
HBMP模型
ESIM模型
CKEIM模型识别准确率
77.4
77.5
78.5
79.6
80.5
81.4
表35种模型在不同训练集规模下的识别准确率对比
Table3Compar古诗文大全摘抄 ison of recognition accuracy of
five models at different training t scales%
模型
BiLSTM+广义
池化层模型
BiLSTM+句内
注意力模型
HBMP模型
ESIM模型
CKEIM模型
识别准确率
4%数据
规模的
训练集
55.9
55.2
59.0
59.5
63.0
15%数据
规模的
训练集
63.1
68.0
65.2
68.1
71.8
50%数据
规模的
训练集
71.0
72.5
70.7
76.6
78.1
100%数据
规模的
训练集
77.4
77.5
79.6
80.5
81.
4
图4不同训练集规模下的模型识别准确率对比
Fig.4Comparison of model recognition accuracy at
different training t scales
48

本文发布于:2023-05-03 00:38:06,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/519536.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   识别   词语   文本   进行   知识   训练   语义
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图