基于双重注意力机制的远程监督中文关系抽取
车金立; 唐力伟; 邓士杰; 苏续军
【期刊名称】《《计算机工程与应用》》
【年(卷),期】2019(055)020
【总页数】7页(P107-113)
【关键词】中文关系抽取; 远程监督; 双重注意力机制; 双向门限循环单元(BI-GRU); 互动百科
赞美祖国的诗词【作 者】车金立; 唐力伟; 邓士杰; 苏续军
蓦然什么意思【作者单位】陆军工程大学石家庄校区 火炮工程系 石家庄 050003
【正文语种】中 文
【中图分类】TP391
1 引言
伴随互联网时代的不断发展,网络中的数据急剧增长,已逐渐成为一种资源甚至生产要素,有效抽取这些海量数据中用户所需的关键知识具有重要价值。关系抽取(Relation Extraction,RE)作为信息抽取中的关键技术,其主要目的为准确识别自然语言中实体间的语言关系[1]。RE 可将散乱的非结构化数据转换为易于理解的结构化知识,在海量信息处理、智能检索、知识问答与知识图谱构建等重要领域中均做出了卓越贡献,并逐渐成为众多研究者所关注的热点。在信息理解会议(Message Understanding Conference,MUC)及自动内容抽取(Automatic Content Extraction,ACE)测评等会议的推动下,多种RE 方法被提出[2],极大地促进了关系抽取技术的发展。
传统的RE方法主要分为基于模板匹配的方法和基于机器学习的方法两大类,其中基于模板匹配的方法[3]需要结合较强的领域知识及语言学知识人工构建有效的规则,利用关系抽取模板从文本中抽取关系实例,人工成本较高且领域迁移性较差,已逐步被基于机器学习的关系抽取方法所取代。而基于机器学习的方法可依据对语料的标注依赖程度分为无监督、半监督及有监督的学习方法三种。其中,无监督学习的方法[4-5]主要基于聚类的思想,在无需预先确定关系类型的情况下,使用聚类后的高频词描述实体关系。这类方法可以得到未预先定义的关系类型,但该方法不能准确描述低频关系实例,且召回率较低。半监督的卡卡卡
方法[6-8]主要利用Bootstrapping思想将少量关系实例作为种子,通过不断迭代将该种子集合扩增到足够规模以完成关系抽取模型的训练。这类方法仅需要少量的标注语料,且准确率高于无监督的方法,然而该方法在迭代过程中存在语义漂移等问题,准确率仍有待提高。有监督的方法[9-10]则主要依靠经过完全标注的训练语料,需要在选取好语料特征集的基础上使用标注语料对关系分类模型进行训练,然后使用该模型对测试语料进行关系预测。有监督的方法可在标注语料较完善的情况下综合利用各种特征对关系分类模型结果进行改进,可获取较好的效果,但这类方法对标注数据十分依赖,而标注数据又十分耗费人力。
为在较少人工干预的条件下得到高性能的RE 模型,基于远程监督的RE 方法[11]开始得到广泛关注。该方法在假设“如果两个实体间具有关系,那么至少有一个包含该实体对的句子描述了这个关系[12]”的前提下,利用现有知识库中所包含的具有关系的实体对,对文本中包含该实体对的句子进行回标,以自动获取大量训练实例,较好地解决了缺少标注训练数据的问题。Mintz等人[13]将Freeba中具有关系的实体对与维基百科文章进行对齐获取了大量关系实例作为训练语料。然而,由于远程监督的假设并不严密,自动构建的训练语料中存在大量噪声数据,对RE 模型的性能具有一定的影响。为解决该问题,多种方法被提三亚亚龙湾天气
出,Hoffmann[14]及Surdeanu等人[15]都采用了多实例学习的策略来减轻噪声数据的影响,并取得了一定的效果。陈立玮等[16]以互动百科作为知识库构建远程监督训练数据,并通过Bootstrapping及协同训练的方法降低训练实例中噪声数据的影响。Zeng等人[17]则在文献[18]的启发下,将深度学习应用到RE当中,联合运用深度学习与多实例学习的策略,降低了噪声数据的影响。
此后,随着深度学习中的注意力机制[19]在图像分类、语音识别、机器翻译等领域逐步起到重要作用,部分学者尝试采用该方法来降低噪声数据的影响。注意力机制可自动关注那些对RE 起关键作用的词语或实例,从而忽略远程监督构建训练语料过程中产生的错误标签,以提升RE 模型的性能。Zhou 等人[20]指出,在英文RE 中,每个英文单词对于最终关系分类的影响程度并不相同,因此文献[20]在每个训练实例中引入词语级别的注意力机制来捕捉英文句子中重要的语义信息,重点关注那些对关系分类起决定性作用的英文单词,利用结合词语级注意力机制的双向长短时记忆(Bidirectional Long Short-Term Memory,BI-LSTM)模型进行RE,大大提升了RE 的准确率。Lin 等人则为了缓解利用远程监督构建的训练语料中噪声数据的影响,在文献[21]中提出实例级的注意力机制,将远程监督获取的包含同一实体对的实例用于RE 模型的训练,通过对各训练实例权重的动态调整来降
低噪声实例的权重,减小了训练实例中的错误标签对于模型性能的影响,使模型的RE 性能得到了显著提升。
然而文献[20]及[21]中的方法均面向英文语料,且只是单一利用了英文中的词语或实例级的语义信息。针对中文RE任务时,汉字作为中文里最基本的单元,包含了许多重要的语义信息,因此中文训练实例中的字符级信息对于中文RE十分重要。同时为降低远程监督训练实例集中的噪声数据的影响,本文提出一种用于远程监督中文关系抽取的双重注意力机制模型,在双向门限循环单元(Bidirectional Gated Recurrent Unit,BI-GRU)网络后加入字符级注意力机制与实例级注意力机制,使模型可通过BI-GRU 网络对输入实例进行编码以获取训练实例的双向上下文语义信息,并通过字符级注意力机制聚焦于实例中对RE 起重要作用的字符,再通过实例级注意力机制利用描述同一实体对的多个实例,计算各实例与对应关系的相关程度来动态调整每个实例的权重以降低噪声数据的影响。本文将利用远程监督方法自动构建的人物关系实例集作为实验语料,实验结果表明,该模型可实现对人物实体间关系的抽取,并取得相比于单注意力机制模型更好的RE效果。
2 远程监督构建人物关系语料
明月从星
本文所提出的RE 方法流程如图1 所示,该方法将数据质量较高的中文互动百科作为知识库,首先利用网络爬虫筛选并获取人物网页数据,并对网页数据进行预处理得到关系实体对及文本集;再通过远程监督的方式将关系实体对与文本集进行匹配自动获取包含关系实体对的关系实例,得到有标注的人物关系语料;最后用训练语料对RE模型进行训练,并应用训练好的RE模型实现对测试文本的RE测试。本章将主要介绍远程监督构建关系实例集的方法。
图1 关系抽取流程
如何人肉
2.1 关系实体对获取
获取关系实体对的目的是从现有知识库中抽取得到具有特定关系的实体对,用于与文本集进行匹配构建训练语料。互动百科作为高质量的中文百科,包含大量的高频人物词条,且大部分词条均由人工进行创建、编辑及审核,可信度较高,因此本文将以互动百科中的结构化数据作为人物关系知识库,用于获取关系实体对。另外,互动百科的人物词条中还包含大量的自由文本,可用于构建文本集。
具体而言,通过对筛选得到的人物页面进行页面解析可知,互动百科中的人物词条页面均包含标题、信息盒、正文三部分内容,通过正则表达式可定位各部分内容,完成对应数据的获取。标题即为人物名称,可提取作为人物实体ei;信息盒则是以表格形式对该人物基本信息的描述,包含人物关系的介绍,结构化较好,可提取其中的人物实体ej 与标题对应的人物实体ei 构成关系实体对<ei,ej,r >,其中r 是对该实体对所具有关系的表述;正文则是对该人物生平经历等方面的介绍,篇幅较长,通常包含描述关系实体对<ei,ej,r >的句子,可获取作为文本集D。以“周恩来”词条为例,标题即为“周恩来”,可作为人物实体ei;其信息盒包含描述其人物关系的基本信息“配偶:邓颖超”,“父亲:周贻能”,“母亲:万冬儿”等,可提取出关系实体对<周恩来,邓颖超,配偶>,<周恩来,周贻能,父亲>,<周恩来,万冬儿,母亲>等;词条正文则可以直接加入到文本集D中。
红酒可以存放多久然而,本文在提取关系实体对时发现互动百科词条对于人物关系的描述过于细化,人物关系种类过多,不利于关系抽取的研究。因此,本文将对人物关系进行泛化,人工筛选并定义完备的人物关系种类,保证所定义的人物关系相互独立且覆盖所有关系实体对。最终得到的主要人物关系共12 种,具体为:父母、配偶、师生、兄弟姐妹、情侣、合作、祖孙、好友、亲戚、同门、上下级、其他。此时,上述“周恩来”词条中抽取出的关系实体对将转
化为<周恩来,邓颖超,配偶>,<周恩来,周贻能,父母>,<周恩来,万冬儿,父母>。本文最终获得关系实体对31 746对,并以这些关系实体对组成人物关系集合K。
2.2 构建人物关系实例集
在得到人物关系集合K 后,构建人物关系实例集的目的就是将文本集D 与集合K 中所包含的实体对<ei,ej >进行匹配,自动获取文本集D 中包含实体对<ei,ej >的句子,作为实体对<ei,ej >所对应关系r 的人物关系实例。以关系实体对<周恩来,邓颖超,配偶>为例,首先将文本集D与实体对<周恩来,邓颖超>进行匹配,将包含<周恩来,邓颖超>实体对的句子“1925年8月周恩来与邓颖超结婚。”提取出来,作为“配偶”关系的人物关系实例“周恩来 邓颖超 配偶1925 年8 月周恩来与邓颖超结婚。”,为便于之后RE模型的训练,关系实例中各部分之间使用空格符进行分割。本文使用该方法最终获得人物关系实例96 446个,并以这些实例构成人物关系实例集T。
慈禧太后墓3 基于双重注意力机制的关系抽取模型
基于远程监督方法构建的人物关系实例集由于假设较为宽泛,自动获取的实例有时并不是
对于该关系的描述,引入了大量噪声数据,严重影响了RE的效果。为解决该问题,本文提出一种基于双重注意力机制的关系抽取模型,网络结构如图2所示,主要由字向量映射层、BI-GRU网络、字符级注意力机制、实例级注意力机制四部分组成。该模型可通过BI-GRU 网络获取训练实例的双向上下文语义信息,并利用字符级注意力机制自动关注训练实例中重要的语义特征,同时在多个训练实例间引入实例级注意力机制来计算实例与对应关系的相关性,以降低噪声数据的影响,提高了RE的性能。
3.1 字向量映射层
在使用训练实例对RE 模型进行训练的过程中,首先需要解决的问题就是将文本进行向量化,使模型可以读取数据。相比于传统的独热(one-hot)编码,由Mikolov等人[22]提出的分布式字向量表示方法可以经过模型训练将每个汉字映射为低维的实数向量,其核心思想是如果汉字的上下文相似,则其语义也相似,所以通过该方法得到的字向量包含丰富的语义信息,已在多种自然语言处理任务中表现出优越的性能。在本文中,对于每个输入的训练实例xt=(w1,w2,w3,…,wn)∈T,其中n为训练实例中包含汉字的个数,每个汉字wi 都可由字向量查询矩阵Dw 进行映射得到对应的实数向量wi:
图2 双重注意力机制网络
其中Dw ∈Rd×N 为以未标注的大规模中文维基百科语料与互动百科人物语料共同由word2vec中的skip-gram模型训练得到的字向量查询字典,vi 则表示对应汉字的独热编码形式。d 表示字向量维度,N 表示字典大小。由此,输入的训练实例经过字向量映射层转换为了字向量序列xt=(w1,w2,w3,…,wn)。
3.2 BI-GRU网络
相比于卷积神经网络,循环神经网络由于其隐藏层节点间具有相互连接,可充分利用历史信息,更适于处理序列数据,已在多种自然语言处理任务中发挥了重要作用并得到了广泛应用。GRU 网络[23]是循环神经网络中的一种改进结构,由Cho 等人对LSTM 网络[24]进行改进得到,其提出的目的是为解决传统循环神经网络在处理长距离信息时产生的梯度消失或梯度爆炸的问题。GRU单元主要基于门(gate)结构来解决上述问题,其内部结构如图3 所示,包含重置门(ret gates)和更新门(update gates)两种门结构。