基于远程监督的关系抽取技术
春节服装作者:王嘉宁 何怡 朱仁煜 刘婷婷 高明
来源:《华东师范大学学报(自然科学版)》2020年第05期
香港旺角
天津市社保
猫和老鼠找茬
厄加特出装
摘要:关系抽取作为一种经典的自然语言处理任务,广泛应用于知识图谱的构建与补全、知识库问答和文本摘要等领域,旨在抽取目标实体对之间的语义关系。为了能够高效地构建大规模监督语料,基于远程监督的关系抽取方法被提出,通过将文本与现有知识库进行对齐来实现自动标注。然而由于过强的假设使得其面临诸多挑战,从而吸引了研究者们的关注。本文首先介绍远程监督关系抽取的概念和形式化描述,其次从噪声、信息匮乏以及非均衡3个方面对比分析相关方法及其优缺点,接着对评估数据集以及评测指标进行了解释和对比分析,最后探讨了远程监督关系抽取面对的新的挑战以及未来发展趋势,并在最后做出总结。
好莱坞动画电影 关键词:关系抽取:远程监督;自然语言处理;知识图谱;噪声处理
中图分类号:TP311 文献标志码:A DOI:10.3969/j.issn。1000-5641.202091006
0引言
豹纹美甲 随着计算机技术的发展和Web数据的日益激增,如何从这些海量数据中获取有效的信息成为当前的研究热点。信息抽取作为一种经典的自然语言处理任务,其主要目标是从半结构化或非结构化的数据中提取结构化的语义信息,是构建丰富的结构化知识库的核心部分。关系抽取是信息抽取的一个关键步骤,其建立在给定的已知实体对和文本描述基础上,挖掘实体对之间的语义关系,形成由实体、关系、实体组成的三元组,因此关系抽取通常应用在知识图谱构建与补全(Knowledge GraphConstruction and Completion)、知識库问答(Knowledge Ba Question Answering)和文本摘要(TextSummarization)等领域。戴尔笔记本重装系统
关系抽取主要分为两大类,一种是以无监督为主的自动抽取(Auto Extraction),另一种是以有监督或半监督为主的关系分类(Relation Classification)。前者通常在没有确定关系标签的条件下,根据语料的句法或语义结构自动地从文本中提取可以描述对应关系的词汇或短语。例如,我们可以从句子“南京是江苏省的省会城市”中根据句法结构自动提取出实体“南京”和“江苏省”的关系是“省会城市”。Hagawa和Oren等人提出了一些在无监
督条件下自动从文本中抽取语义关系的方法。后者通常将关系抽取视为一种分类任务,即事先预定义有限个关系标签,并对语料进行人工标注。有监督的关系分类主要方法是对实体和文本通过特征工程或表征学习来提取句法或语义信息,并通过分类器完成对关系的分类。由于有监督关系分类依赖于标注语料的质量和数量,而人工标注语料的成本高、效率低,半监督或弱监督的关系抽取成为研究的热点。如Kumlien提出了一种弱监督学习方法来从文本中提取结构化的语义关系。