基于图的中文集成实体链接算法
刘峤;钟云;李杨;刘瑶;秦志光
【摘 要】嘉庆帝实体链接(entity linking)是知识库扩容的核心关键技术,传统的实体链接方法通常受制于本地知识库的知识水平,而且忽略共现实体间的语义相关性.提出了一种基于图的中文集成实体链接方法,不仅能够充分利用知识库中实体间的结构化关系,而且能够通过增量证据挖掘获取外部知识,从而实现对同一文本中出现的多个歧义实体的批量实体链接.在开放域公开测试语料上的实验结果表明,所提出的实体相关图构造方法、增量证据挖掘方法和实体语义一致性判据是有效的,算法整体性能一致且显著地优于当前的主流算法.
【期刊名称】《计算机研究与发展》
【年(卷),期】2016(053)002
社会部【总页数】14页(P270-283)
【关键词】集成实体链接;知识库扩容;知识图谱;实体相关图;中文信息处理
【作 者】刘峤;钟云;李杨;刘瑶;秦志光
【作者单位】电子科技大学信息与软件工程学院 成都610054;电子科技大学信息与软件工程学院 成都610054;电子科技大学信息与软件工程学院 成都610054;电子科技大学信息与软件工程学院 成都610054;电子科技大学信息与软件工程学院 成都610054
华为手机云服务【正文语种】中 文
【中图分类】TP391
实体链接(entity linking)是文本分析会议(text analysis conference,TAC)知识库构建领域设定的基本挑战,任务目标是将从文本中提取到的实体指称项正确地链接到知识库中对应的实体对象上[1].
水肿的治疗方法
实体链接是知识库扩容的核心关键技术.随着面向开放域的信息抽取技术的发展,人们有可能从海量开放数据中自动抽取出实体、关系和属性信息[2-4].然而,通过开放域抽取得到的知识元素间的关系是扁平化的,缺乏层次性和逻辑性,甚至可能包含大量冗余和错误信息.为建立结构化的知识库,首先必须解决知识融合的问题,实体链接技术就是用
于解决知识库构建过程中遇到的实体映射问题的信息融合技术.通过实体链接,可以消除概念的歧义,剔除冗余和错误概念,从而确保知识的质量[5].
具体说来,通过实体链接可以解决实体指称项的歧义性和多样性问题[6].实体指称项的歧义性是指相同的实体指称项在不同的上下文环境中有可能指向不同的实体对象,例如实体指称项“张三”在不同的语境下可能指代不同的实体对象.实体指称项的多样性则是指某个特定的实体对象,可能与多个不同的实体指称项(如别名、缩写等)相对应,例如NBA球星“迈克尔·乔丹”在不同的语境中可以采用“乔丹”、“飞人”甚至姓名缩写“M.J”来指代.
实体链接技术不仅具有重要的理论研究价值,而且有着重要和迫切的实际应用价值.知识库扩容是自然语言处理、人工智能和专家系统等相关领域共同关注的热点研究领域,而实体链接问题是当前该领域面临的主要研究挑战[5].近年来,随着实体链接技术的发展,知识库自动构建和扩容技术也不断取得进展,一些商用和公益性知识库的规模得到了迅速扩张,例如,WolframAlpha知识库的实体总数已超过10万亿条,而谷歌知识图谱则拥有5亿个实体和350亿条实体间的关系.然而,现有的实体链接技术仍存在明显的局限性,如依赖百科知识作为实体链接的知识来源,导致处理开放域实体链接任务时的性能不稳定和
动漫男生发型
计算效率低下.一旦面向开放域的实体链接技术取得突破,将对知识库的扩容产生极大的推动作用,进而对知识库应用产生深远影响[7].
现有的实体链接研究成果主要面向英文处理,相对而言,中文实体链接技术的发展稍微有些滞后,主要有如下3方面原因:1)英文的开源知识库建设起步较早,已建成一些较为成熟的知识库,如DBpedia①,Freeba②等,而中文开源知识库目前仍处于起步阶段,对实体链接研究工作形成一定的制约;2)中文实体抽取技术受制于分词技术,分词和词性标注是中文信息处理技术的难点,也是制约实体链接技术发展和应用的关键问题之一;3)中文实体的共指和消歧处理难度比英文更大,原因是中文的语法更为灵活,语义也更加丰富[8].中文是仅次于英语的世界性语言,对中文实体链接的研究可以促进中文知识库的扩容,进而提高对中文信息的智能处理水平,因此是极具前景的研究方向,近年来吸引了大量的研究努力,TAC 2015会议也将跨语言实体链接(中文、英文、西班牙语)定为主要挑战.本文的研究目标就是致力于解决中文实体链接研究中当前面临的主要挑战性问题.
当前主流的实体链接方法采用基于相似度比较的思路,即通过计算实体指称项与其相应的候选实体间的上下文相似度,选择相似度最高的候选实体作为链接目标[9-10].该方
美丽的反义词是什么法的局限性在于每次仅处理文本中出现的一个待定实体指称项,计算效率低,且未考虑该文本中共现实体间的语义相关性,造成信息浪费和实体链接准确率降低.研究表明,利用词语间的共现关系能够有效提高消歧的准确性[11].本文提出一种基于图的中文集成实体链接算法(graph-bad collective Chine entity linking algorithm,GCCEL),通过将文本中出现的实体指称项以及其候选实体集合视为图的顶点集合,利用实体间的语义相关性构造实体相关图,以图中顶点的语义一致性为判据,实现对同一文本中出现的多个实体的批量实体链接.与相关工作相比,本文的主要贡献在于:
1)所设计的实体相关图综合考虑了实体间的语义相关度、上下文相似度、实体的知名度(流行程度)以及实体在知识库和外部知识源中表现出的间接语义关联等要素,能够更准确地辅助实现候选实体的区分和判别,达成精准实体链接的目标;
96年属什么生肖
2)在实体相关图构造过程中引入了增量证据挖掘的思想,在充分利用本地知识库中既有知识的基础上,能够有效利用第三方知识源提供的实体背景知识,从而在降低对本地知识库的依赖的同时,显著提升实体链接算法的准确率和召回率;
①http:??datahub.io?datat?dbpedia
②https:??www.freeba.com
3)提出了一个完整的基于实体相关图的中文实体集成链接算法原型和一种全新的实体语义一致性计算方法,并基于实体相关图实现了对开放域文本语料的批量实体链接.实验结果表明,该算法的准确率和召回率优于当前主流的相关工作,且所需的训练样本规模较小,方法适应性和推广性较好.
实体链接任务是知识库构建领域当前面临的关键问题和基本挑战之一,由于该技术对于知识库扩容具有重要的基础研究价值,近年来受到了学术界的广泛关注.早期的实体链接研究思路主要针对单一实体进行考虑,即逐一地将从外部语料中抽取得到的实体映射到知识库中.近年来,随着一系列集成实体链接方法的提出,该类方法逐渐成为研究热点.本节将首先简要介绍实体链接方法的研究进展概况,然后重点讨论与本文工作密切相关的集成实体链接方法.
1.1 单实体链接方法
单实体链接方法一次仅对文本中的一个实体进行链接,而不考虑文本中其他共现实体的影
响.基本研究思路是通过计算从文本中抽取得到的实体指称项与从知识库查询得到的候选实体之间的上下文相似度,选择相似度最大的候选实体作为链接目标.代表性工作是Bunescu等人提出的基于上下文的相似度计算模型,该模型以维基百科为知识库,对于给定文本中抽取得到的实体指称项,在维基百科上查找相应的候选实体构成集合,然后利用词袋模型计算给定文本和候选实体所在的维基页面之间的余弦相似度,选择相似度最大的候选实体作为链接对象[9].
该项研究工作引发了学术界对基于相似度计算的实体链接方法的关注,产生了一些具备实用价值的成果.其中,Silviu在计算实体间的余弦相似度时加入了对实体间类别相关性的考虑,在维基百科和新闻网页语料上分别取得了88.3%和91.4%的实体链接准确率[10].类似的方法扩展工作还包括Nguyen等人提出的相似度计算模型,该模型在计算相似度时加入了候选实体在维基百科页面的上下文特征(关键词)和页面结构特征(如页面重定向、实体类别、锚文本等),从而有效提高了算法的准确性[12].
针对多个候选实体可能具有相同的余弦相似度的问题,Zeng等人提出采用外部知识扩展实体指称项特征向量的解决方案(在该论文中是以实体指称项上下文词的维基百科页面作为
外部知识源,对输入文本的特征向量进行扩展,然后在迭代计算实体指称项与其候选实体的上下文相似度),该方法在新浪微博数据集上取得了88.5%的实体链接准确率[13].
我爸是李刚歌曲
基于实体上下文相似度的实体链接算法通常受制于上下文信息的不足,为此Zhang等人提出了一种基于图模型的维基概念相似度计算方法,该方法借助维基百科提供的实体上下文,能够有效提高实体指称项与候选实体间的语义相似度计算准确性,在TAC2011会议的KBP数据集取得了80.40%的准确率[14].本文提出的GCCEL算法与该方法的主要区别在于实体相关图的构造方法不同.首先,Zhang等人提出的方法仅考虑实体间的直接上下文关联关系,而GCCEL算法则在此基础上进一步考虑到了实体间的间接语义关联关系,即2个目标实体均与第三方存在直接关系的情况.其次,Zhang等人提出的算法是基于全局的维基概念图的(图中包含260万个节点、5 100万条边),而本文提出的算法仅针对输入文本中出现的实体构造相关子图,因此计算效率更高.
除了基于相似度计算的方法外,一些学者还尝试将统计机器学习方法引入到实体链接工作中.例如,Zuo等人提出了一个投票模型,思路是将奇数个实体链接方法作为分类器,在
链接时分别对每个候选实体进行0?1判定,获得半数以上选票的候选实体将成为最终的链接对象.该方法在KORE,CoNLLYAGO,CUCERZAN等基准数据集上测试的结果显示,F1值分别达到了77.83%,87.98%,88.61%[15].
1.2 集成实体链接方法
单实体链接方法的主要缺点在于没有考虑同一篇文档中出现的实体间的语义相关性,而这种由共现关系导致的语义相关性对于区分有歧义的实体通常是有帮助的.为了解决这一问题,Han等学者提出了基于实体共现关系的集成实体链接方法[16].
集成实体链接方法的基本思想是对给定文本中出现的所有实体指称项,在当前的上下文环境中根据语义关联关系同步进行消歧,即批量地将其链接到本地知识库中对应的实体对象上.与单实体链接方法相比,集成实体链接方法的另一个优点是采用语义相关图的方式表示文档中实体间的语义关系,从而避免了逐一扫描待定实体,分别进行消歧处理的单线程处理模式,因此有助于提高实体链接效率.
Han等人提出的集成实体链接算法以维基百科作为本地知识库,对给定文本,首先提取出
所有实体指称项,并通过查询确定每个实体指称项在知识库中的候选链接对象;然后,将实体指称项和候选实体视为图的顶点,以实体间的谷歌距离(Google distance)作为语义相关性测度,建立与该文本对应的实体相关图;最后,采用随机游走方法对图中的候选实体进行排序,得到实体链接的推荐结果.在维基百科和IITB等基准语料上的实验结果表明,基于图的集成实体链接算法性能优于当前主流的单实体链接方法[16].
该方法的提出在业界和学术界形成了广泛影响,近年来涌现出大量相关工作.其中,Shen等人基于维基百科和Yago知识库提出的LINDEN模型将实体间的语义关联进一步区分为语义相似性和全局相关性,在TAC2009会议数据集上实现了高达84.32%的实体链接准确率[17].Johannes等人则进一步考虑了实体流行度和相似度等因素,并据此设计实现了一个面向实际应用的AIDA实体链接原型系统[18].在上述工作的基础上,Ayman等人通过修改顶点初始(概率)值的方式,将实体上下文相似度和实体流行度等因素结合到PageRank算法原型中,在AIDA数据集上实现了86.10%的实体链接准确率[19].