我是神枪手
收稿日期:2018 12 28;修回日期:2019 02 27
作者简介:谢德鹏(1993 ),男,山东临沂人,硕士研究生,主要研究方向为关系抽取、知识图谱(1181780298@qq.com);常青(1969 ),女,天津人,副总工程师,研究员,硕导,硕士,主要研究方向为计算机应用.
关系抽取综述
谢德鹏1,常 青2
(1.中国航天科工集团第二研究院研究生院,北京100854;2.北京计算机技术及应用研究所,北京100854)摘 要:关系抽取发展至今,总体上可以分为基于规则和基于统计的抽取方式;之后出现的众多方法大多是以
统计为主,辅助以规则;后来引入了包括远程监督、深度学习等模式并融合了注意力机制、多标签多实例方法。对关系抽取的发展过程和方向以及以上提到的方法进行介绍和总结。
关键词:关系抽取;有监督方法;无监督方法;半监督方法;远程监督;神经网络;联合抽取中图分类号:TP391 文献标志码:A 文章编号:1001 3695(2020)07 001 1921 04doi:10.19734/j.issn.1001 3695.2018.12.0923
Reviewofrelationextraction
XieDepeng1,ChangQing
2
(1.GraduateSchool,SecondResearchAcademyofCASIC,Beijing100854,China;2.BeijingInstituteofComputerTechnology&Application,Beijing100854,China)
Abstract:Relationextractiongenerallyconsistofrule basedandstatistic based.Manysubsequentmethodsaremainlybased
入团的好处onstatisticsandsupplementedbyrules.Itappliessomemethodsincludingdistantsupervision
,deeplearningandsoon,andintegratesincludingattentionmechanism,multi tagandmulti instance.
Thispaperreviewedthemethodsmentionedabove,andindicatedsomepromisingdirections.Keywords:relationextraction;supervisedrelationmethod;unsupervisedrelationmethod;semi supervisedrelationmethod;distantsupervision;neuralnetwork;jointextraction
伴随着互联网技术的不断发展,网络资源也呈现出爆炸式的飞速增长,出现更多半结构化和非结构化的数据资源。如何低成本地从复杂、多源分散和冗余异构的数据中提取出高质量、结构化的可利用数据成为现实和迫切的问题,这也是信息抽取的主要研究内容。关系抽取是信息抽取的子任务之一。
关系抽取包括实体及其关系抽取两部分,主要是从文本中抽取出实体1和2及其两者之间的关系类型,表示为类似于〈实
儿童益智游戏体1
童年读后感
,关系类型,实体2〉的结构化形式。现在主流的抽取方法可以细分为基于监督的方式、基于半监督的方式、无监督方式、远程监督和面向开放域的关系抽取,并且深度学习方法加入之后逐渐替代传统机器学习方法成为研究的热点和主流。
关系抽取在诸多领域都具有重要的应用价值,包括语义理解、推荐检索、机器翻译和智能问答等服务,关系抽取都作为基础数据提供的手段。伴随着知识图谱研究和应用的盛行,关系抽取作为对图谱构建最终的生成质量具有举足轻重的影响,基本和核心环节也是备受关注,吸引了大批研究人员参与其中,很多引入和融合的新方法及模型也就应运而生。
1 关系抽取的产生发展
在1998年的第七届信息理解会议(messageunderstandingconference,MUC)上,首次提出了模板抽取的任务,后来发展成为关系抽取。在MUC 7会议上提出的关系抽取任务主要针对人物(persons)、地理位置(locations)和产品(artifacts)的模板类型[1],评测的语料内容主要来源于《纽约时报》对飞机事故和航天发射相关的新闻报道,并且设计了抽取结果的评价体系。
1999年,美国国家技术研究院(NationalInstituteofStan dardsandTechnology,NIST)召开的自动内容抽取会议(auto
maticcontentextraction
,ACE)取代了之前的MUC会议,并且对关系抽取评测的任务和训练材料进行了融合拓展和细化
完善[2];2002年,第三届会议正式加入了实体关系发现和识别任务(relationdetectionandrecognition,RDR);2008年,ACE会议正式将关系抽取任务划分为七种类型;2009年,ACE正式纳入文本分析会议(textanalysisconference,TAC),成为知识库总体
(knowledgebasepopulation,KBP)任务的重要组成部分[3]
;后期
出现的语义评估(
心理知识竞赛semanticevaluation,SemEval)会议SemEval 2007的评测任务4中设置了7种常用名词和名词短语间的实体关系,在SemEval 2010评测任务8中将实体关系类型扩充
与妻书教案
到了10种[4]
。
以上提到的包含关系抽取研究的会议极大地推动了其发展,但是他们所发布的评测语料对于人工标注
的依赖性较大。这类语料库耗费大量人力进行手工模板和规则的编写及训练语料的标注,虽然质量有所保证,但无法提供大规模材料,并且领域适应性和后期扩充性很差。后来包括维基百科、DBpedia和Freebase等大规模事实知识库出现后,为标注语料提供大量的语料支持,使得开放域关系抽取成为可能,并在跨领域性和规模性方面具有先天优势。
2 关系抽取的研究现状
关系抽取作为信息抽取中的重要子任务,国内前期的相关研究起步较晚,后期包括中国科学院、清华大学、北京大学等诸多科研院所在推动其研究发展上做出重要工作。在实现方式上,根据对于人工标注数据的依赖性可以细分为基于监督的方式、基于半监督的方式、无监督方式和面向开放域的抽取,后期又出现远程监督方式。深度学习逐渐火热和成熟之后也被应用到关系抽取之
第37卷第7期2020年7月 计算机应用研究
ApplicationResearchofComputersVol.37No.7
党小组会议>文情Jul.2020