基于词性特征的明喻识别及要素抽取方法

更新时间:2023-05-24 09:50:08 阅读: 评论:0

第35卷第1期2021年1月
Vol.35,No.1
Jan.,2021
大学英语四级改革中文信息学报
JOURNAL OF CHINESE INFORMATION PROCESSING
文章编号:1003-0077(2021)01-0081-07
基于词性特征的明喻识别及要素抽取方法
赵琳玲王素格陈鑫-王典I,张兆滨I
(1.山西大学计算机与信息技术学院,山西太原030006;
2.山西大学计算智能与中文信息处理教育部重点实验室•山西太原030006)
摘要:比喻是一种利用事物之间的相似点建立关系的修辞方式。明喻是比喻中最常见的形式,具有明显的喻词.
例如“像”,用于关联本体和喻体。近年来高考语文散文类鉴赏题中多有考查明喻句的试题,为了解答此类鉴赏题,需要识别比喻句中的本体和喻体要素。该文提出了基于词性特征的明喻识别及要素抽取方法。首先将句子中词向量化表示与词性特征向量化表示进行融合,将融合后的向量输入到BiLSTM中进行训练,然后利用CRF解码出全局最优标注序列;最后得到明喻识别和要素抽取的结果。公开数据集上的实验结果表明,该方法优于已有的单任务方法;同时也将该文方法应用于北京高考语文鉴赏题中比喻句的识别与要素抽取•验证了方法的可行性。
关键词:比喻;本体;喻体;BiLSTM;CRF
中图分类号:TP391文献标识码:A
Part-of-Speech Bad Simile Recognition and Component Extraction
ZHAO Linling1,WANG Suge12,CHEN Xin1,WANG Dian*,ZHANG Zhaobin*
(1.School of Computer Science and Technology,Shanxi University»Taiyuan,Shanxi030006‘China;
2.Key Laboratory of Computational Intelligence and Chine Information Processing of Ministry of Education♦
Shanxi University,Taiyuan,Shanxi030006,China)
Abstract:Simile is the most common form in the metaphor,including obvious comparators,such as"like"・ud to relate tenor and vehicle.To better resolve the Chine pro reading comprehension of the College Entrance Exami­nation»this paper designs a method for the simile recognition and component extraction bad on part-of-speech fea­tures.Firstly,the vector reprentation of the words in the ntence is merged with the reprentation of the part-of-speech.Then,the fud vector is input into BiLSTM model and the global optimal annotation quence is decoded by CRF.Finally,the smile recognition and component extraction are generated according to annotated quence.The experiment results show that the propod method is better than the existing single task method on the open datat.
Keywords:metaphor;tenor;vehicle;BiLSTM;CRF
0引言
比喻是用于与其相似的事物、道理打比方的修辞格.使用比喻辞格的句子称为比喻句。利用比喻对事物的特征进行描述,可以使事物形象、生动、具体.给人留下深刻印象。在文学类作品中,利用比喻可增强语言的表现力.在近年的高考语文散文类鉴赏题中.多有涉及明喻句的考查。以2016年北京市高考语文第24题为例:
原文:我在这腔调里沉迷且陷入遐想,这是发自雄浑的关中大地深处的声响,抑或是渭水波浪的涛声,也像是骤雨拍击无边秋禾的啸响,亦不知无时节的好雨润泽秦川初春返青麦苗的细近于无的柔声,甚至让我想到柴烟弥漫的村巷里牛眸马叫的声音....
问题:文章第四段运用了多种手法,表达了作者对老腔的感受。请结合具体语句加以赏析。
部分参考答案:比喻.将老腔的腔调比喻为骤雨拍击秋禾的啸响、雨润麦苗的柔声等,既写出
收稿日期:2019-12-12定稿日期:2019-12-31
基金项目:国家自然科学基金(62076158)!国家重点研发计划(2018YFB1005103);山西省重点研发计划(201803D421024)
怦然心动美国版电影82中文信息学报2021年
了……,又写出了……。
如果能自动识别明喻句并抽取句子中的本体和喻体.不仅可以解答鉴赏类问题.还可以进一步了解作者所表达的思想感情。
stubbornly比喻句中相关要素定义丄如下:
本体:被描写和说明的事物.即被比方的事物。
喻词/连接词:连接本体和喻体的词语.在明喻中称为“喻词”,例如,“像、如、好像”等,暗喻中为“连接词”,总称为“触发词”。
喻体:与本体相对,即用来打比方的事物。
喻解/喻底:使本体和喻体构成比喻关系的两者的相似点。
现代修辞学将比喻分为明喻、暗喻、借喻,将暗喻和借喻视为隐喻明喻就是直接打比方,有明显的喻词指引本体和喻体之间的关系⑷。通过研究明喻⑷,分析和阐释明喻现象,了解明喻建立的意义和推理机制.探究明喻背后的认知过程,可以了解人的认知手段与过程。虽然与隐喻相比明喻研究相对容易.但由于数据的缺乏和相关研究较少,给研究也带来了挑战。
现代汉语明喻句的典型句式为“A像B”.此句中本体是A、喻体为B、喻词是像。针对此类明喻句.本文主要研究基于词性特征的明喻识别及要素抽取方法。由于双向的长短期记忆(BilSTM)E能够充分利用上下文信息,而条件随机场(CRF)模型可以用来输出标签之间的前后依赖关系,因此,将词性特征融合到BiLSTM与CRF连接对序列化数据进行建模(BiLSTM-CRF)o在Chine-Simile-Recognition6数据集上进行验证,实验结果表明,本文方法优于Liu 等人⑷提出的单任务明喻识别和要素抽取方法。
1相关工作
目前针对比喻句的已有研究主要是利用句法结构和深度学习的方法。
基于句法模式的分析方法是利用句子的句法结构(主谓宾结构)和词汇间的依存关系(并列,从属等)进行建模的方法。Niculae等人⑺提出了一种使用句法模式进行比较识别的方法,用于比喻句中的本体和喻体的抽取。该方法在处理明喻句中的短句时表现比较好,对于复杂或长句有时会导致本体和喻体抽取的不完整。Niculae等人闾提出了在比较句中比喻的计算研究.探究了明喻的语言模式,发现领域知识是识别明喻的主要因素。
基于深度学习的比喻句识别,穆婉青⑴采用词和词性作为特征,提出了基于CNN_C的比喻句识别.正确率已达到94.7%.然而.并没有对要素进行抽取。对于要素抽取.研究者们利用多任务学习方法,通过在相关任务间共享表示信息,提升模型在原始任务上的泛化性能。Liu等人"提出了神经网络框架联合优化的三个任务。将明喻要素抽取看成序列标记问题,使用不同的前缀标签区分本体和喻体要素。CRF⑷能有效学习输出标签之间的前后依赖关系,近些年在自然语言处理领域中得到广泛应用。Huang等人皿提出了一系列基于长短期记忆(LSTM)的序列标注模型.首次将BiLSTM-CRF模型应用于NLP基准序列标记数据集,并证明BiLSTM模型可以有效地利用过去和未来的输入特征。对于CRF层,它还可以使用句子级的标记信息,使方法具有较强的鲁棒性,而且对嵌入词的依赖性也较小。
本文将明喻识别和要素抽取作为序列标注任务。嵌入层将词性特征向量化得到的向量与词向量进行融合,采用BiLSTM学习文本中前向和后向距离特征来得到全局特征,在输出层添加C R F层得到文本的最优标注序列。
2数据特征分析
为了对比喻句中本体和喻体准确的识别.本文选取两个数据集进行考察。
Chine-Simile-Recognition(CSR)6:该数据集是由首都师范大学、科大讯飞等提供①,训练集共
有7262条句子,其中比喻句(明喻句)有3315条,非比喻句有3947条。
Simile-Recognition-SXU(SRS)D]:该数据集是由山西大学研究团队构建.数据来源于高中语文课文、查字典网②、散文吧网站③和BCC网站④。该数据集共有3207条,其中训练集有1925条.开发集有641条,测试集有641条。人工标注明喻句中的本体和喻体是最简短的.且不带修饰语。
2.1喻词分析
对于CSR,明喻句中喻词均为“像”.而明喻句
①https://i/cnunlp/Chine-Simile-Recognition-Datatenabled是什么意思
②https:
③https:/www.san w e n&cn
<3)http://bcc.
1期
赵琳玲等:基于词性特征的明喻识別及要素抽取方法
83
中的喻词不仅只有“像”.还有“如,好似.仿佛.若,似
乎”等。对SRS 中不同喻词的句子进行统计,结果 如表1所示。人工校对部分分词,标注的本体和喻
体是不带修饰语的名词短语。
表1 SRS 中不同喻词统计
喻词
数量/条
百分比/%
2 39674.7如57117.8
好似38  1.2
仿佛81
2.5
230.7似乎
12
0.4其他86
2.7
2.2词性特征分析
通过对CSR 和SRS 两个数据集的统计,发现
CSR 中比喻句标出的本体与喻体包含多词的仅占 0. 38%,而SRS 本体与喻体中包含多词的仅占 1. 07%,因此.本文只对CSR 和SRS 中本体和喻体
为单个词的开展研究。再对CSR 和SRS 的本体与 喻体按照词性进行统计,发现CSR 和SRS 中名词 分别占80.3%和85.9%。而动词在句子中扮演着重
要角色.它表征概念实体间的相互关系•是句子中名 词实体的概念依存体。因此.词性特征对于识别明
喻句中的本体和喻体可以提供更准确的信息。
3明喻识别及要素抽取方法
通过第2节对比喻句特征的分析可以发现,本
感叹号英文体和喻体的词性对比喻句的识别具有重要的作 用。因此,将词性特征融合到词的表示中。由于
BiLSTM-CRF 模型在BiLSTM 输出后增加了 CRF
层,所以它能够加强文本间信息的相关性,并同时 考虑过去的与未来的特征。因此,本文将明喻识 别及要素抽取问题看作序列标注问题。利用每个
句子中的词表示和词性表示的联合特征,学习特 征到标注结果的映射,得到特征到任意标签的概 率,通过这些概率,得到最优序列结果,根据最后
序列结果对明喻识别及要素抽取,整体框架如图1 所示。
Label  S-Tenor
POS  Embedding
CRF  layer
Hidden  layer
BiLSTM  l
Embedding
Word  Embedding  S-Vehicle
气球像梨子
Word
图1基于词性特征的明喻识别及要素抽取框架
图1中标注的实体有本体和喻体,分别用 Tenor 和Vehicle 表不.将已标注的数据集转变为 1OBES 模式(():既不是本体,也不是喻体,S :单独
构成实体.B :实体的开始,1:实体的中间.E :实体
的结尾),共得到九种标签,具体的标签类型Typet  =
开心用英语怎么说{ (), S-Tenor, B-Tenor , I-Tenor , E-Tenor , S-Vehicle»B-Vehicle» I-Vehicle, E-Vehicle } o  例如,
S-Tenor 表示单独一个词构成本体。对于明喻句的
识别问题,当一个句子中所有词的标签都为“()”时,
则判定此句为非明喻句,否则此句为明喻句。
84中文信息学报2021年
3.1词嵌入式表示
由于明喻句中的语言表达比较含蓄、委婉.直接从字面上对其识别比较困难。例如.图1中的例句,“气球像梨子”,之所以能这样说,主要原因是气球和梨子在形状上有某些相似之处,人们在使用时将•'气球”比喻成“梨子”,也就是将有类似特征的词语放到一起使用。虽然它们在字面上属于不同领域的事物.但在上下文中又有一定的语义一致性,另外,它们所具有的词性都为名词。因此.可以建立词语和词性的深层语义表示。
ong3.1.1词语的初始化表示⑷
英语社区为了刻画句子中词语深层语义表示.Word2Vec 可以作为其初始化表示工具,其原因是Word2Vec 是在大规模的语料库上进行训练所得.能使词语表达的深层语义更加丰富。
设给定一个句子Sentence={wj,w2,…,w…}, w,为句子Sentence中的第i个词语,利用Word2Vec工具获得w,的初始化嵌入表示为c,.得到句子的嵌入表示为Sentence=<Ci,c2,••-,c…},其
中,c,€R"(i=1,2,…,”)。
对于比喻句中的词性特征,直接利用结巴工具进行获取,其中名词用“1”表示,代词用“2”表示.动词用“3”表示,其他词性用“0”表示。词性特征也可使用Word2Vec工具获得,p,代表词性特征向量,其中p,G将词语嵌入和词性特征向量进行拼接.如式(1)所示。
x,=[c,;/>,](1)其中,“;”表示拼接操作,x,e R iJ.代表拼接后的向量表示。
利用式(1)可得到句子表示为Sentence=(x,. x2,…,x”)。
3.1.2基于BiLSTM的词语上下文表示
由于BiLSTM;"〕能较好地解决文本长距离依赖问题.同时可以在两个方向上进行文本语义表达.因而选用其作为词语的上下文表示。在包含"个词的句子Sentence=(jr,,jr2,••-,j-…)中.每个词由
一个2d维的向量表示。BiLSTM的正向和反向的上下文信息分别为忘和忘,如式(2)、式(3)所示。
h,=LSTM(j-,,h,-t)(2)
h,=LSTM(j-,,+i)(3)其中,LSTM代表前向LSTM的神经单元,〔STM代表后向LSTM的神经单元。
根据式(2)和式(3)分别得到正向和反向的上下文信息,将其进行组合⑷,可以有效地包含文本两个方向的上下文特征.获得句子的嵌入式表示为Sentence=(h],h2,•••.h…),其中.h,=[/i,;
€RM(i=1.2,…,”)。
3.2基于BiLSTM-CRI的明喻要素预测
由于BiLSTM-CRF模型是在BiLSTM输出后增加CRF[liJ层,可以增强词语间上下文信息相关性的特征,同时考虑当前每个词的隐层状态的特征。因此,为了对句子进行序列标注.将第3.1节得到的嵌入式表示,经过一个线性变换获得隐藏层每个词的新表示,这个新表示一方面作为CRF的输入,另一方面作为该词在序列标注时标签的得分。
对于嵌入层表示后的句子Sentence=(h t….h”).再使用一个线性变换层,得到句子中每个词隐藏状态的嵌入表示P,.将句子中的词语从4d维映射到g维空间,g为标注序列中标签的个数,如式(4)所示。
p,=W•h,(4)其中,
由式(4)获得句子Sentence输入CRF层的嵌入式表示为P=(p,.p2其中.P€R”",p,中的每一个元素",表示句子中第<;个词语,得到第丿个标签的得分。
在序列标注任务中.需要利用词的标签与周围词标签存在的依赖关系.然后解码出全局最优的标签序列•CRF正是针对这项工作的。因此,在BiLSTM网络输出层后加入CRF。
对于给定句子:Sentence=(©.如,…,w…),
预测标签序列为:Y=(yi,5½'…,5”)。P=邙为BiLSTM的输出标签得分矩阵.A= a.几“为标签间的转移得分矩阵.a,”表示从标签i到标签j的转移得分,刃和几”是新增句子的开始标签和结束标签,因此.A转化为B(,+2)x<i,+2)矩阵。Sentence—Y的序列得分〔⑷,如式(5)所示。
5(Sentence,¥)=另B”,,v,+1+£(5)
»=0i=1
对于预测句子Sentence的标签序列,由softmax计算获得•如式(6)所示。
p I Sentence)=
e'(Sentence.D
Sentence.Y)
(6)
在训练过程中•最大化正确标签序列的对数概
1期赵琳玲等:基于词性特征的明喻识别及要素抽取方法85
率[⑸,如式(7)所示。
log(p(Y|Sentence))=5(Sentence,Y)—
log<X e,<St'n,ence'Y>)
y
(7)
从式(7)中能够获得模型生成概率中最大的标签序列。在解码阶段,最后预测的输出序列是根据最高得分的标签序列所获得的,如式(8)所示。
Y=arg max{log(p(Y|Sentence))}
y
=arg max<5(Sentence,Y)}(8)
y
通过式(8),可以获得句子Sentence中词的每个标签•其标签类型为第3节介绍的九种标签之一。
4实验结果及分析
4.1参数设置及评价指标
本文实验中词向量维度是50,字向量维度是100.均采用Word2Vec训练得到的向量。特征向量的维度设置为50,LSTM隐藏层的维度设置为100, dropout设置为0.6。梯度下降优化算法采用Ad-am[,6],学习率设置为0.001。
本文采用第2节介绍的CSR和SRS作为实验数据集。对于一个明喻句,只有本体和喻体的边界和标签都标记正确时,才判定此明喻句要素抽取正确。因此,实验结果采用成对的评价指标①,精确率P(precision),召回率R(recall)和值。4.2对比方法介绍
为验证本文方法的有效性.设置如下方法对比实验。
CRF:直接利用分词特征.设计CRF的特征模板,窗口大小为5。
RNN:以字向量作为输入的循环神经网络。
CNN:以字向量作为输入的卷积神经网络。
下面的方法仅说明其输入向量的方式.在此基础上采用BiLSTM-CRF0
复合句
C:Embedding层为每个字的字向量。
C+J:Embedding层为每个字向量和位置信息的拼接,位置信息的表示是通过结巴分词得到分词信息特征。1表示词的开始;2表示词的中间;3表示词的结尾;0表示单个词。
Singletask(CE):由Liu等人1X1提出的Embedding 层为每个词的词向量。
W+T:Embedding层为每个词的词向量和主题信息的拼接,主题信息是利用I.DA聚类方法得到的。
W+F:Embedding层为每个词的词向量和词性特征的拼接。bubbles
W+F+T:Embedding层为每个词的词向量、词性特征和主题信息拼接。
4.3实验结果及分析
实验1七种方法的明喻要素抽取比较
为了验证本文提出方法的有效性,在CSR和SRS±设置了如下对比实验,实验结果分别如表2、表3所示。
表2七种抽取方法在CSR±明喻要素抽取的实验结果比较(%)
方法P R F,
Tenor Vehicle
P R Fi P R Fi
CRF24.0527.3225.5853.7844.1648.6260.1347.8853.37 C54.0460.0656.8967.6469.2568.4472.3782.8377.25 C+J52.0863.0257.0372.766.7769.6177.9679.2278.59 Singletask(CE)54.0466.6759.6974.9267.7671.1676.4686.7581.28 W+T53.5669.0360.3267.0373.6370.1876.6185.8480.97 W+F56.1569.8262.2470.3373.1371.717&1685.1481.50 W+F+T51.3372.0959.9774.5866.5770.3577.6285.6481.43
(D https:///cnunlp/Chine-Simile-Recognition-
Datat

本文发布于:2023-05-24 09:50:08,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/120689.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:特征   表示   标签
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图