基于中文知识图谱的电商领域问答系统
杜泽宇;杨燕;贺樑
【摘 要】With the rapid development of knowledge map, the Chine domain question answering system for knowledge map has become one of the newest and hotest rearch directions at prent, and it is of great significance and value to improve the intelligence level of professional field.In this paper, a t of streaming Chine knowledge map automatic question answering system (CEQA) is propod for the diversification of Chine spoken language mantic expression, grammatical specification and the particularity of electricity business domain.It can accomplish the complex problem of commodity consuhation and statistical reasoning in the field of electric business, especially the improvement of the interdependence between Chine and English mixed commodity name recognition, mantic link and complex question.The experimental results show that the system has high accuracy and practical value in the application of question and answer.%随着知识图谱的迅速发展,面向知识图谱的中文领域问答系统已成为目前最新最热
的研究方向之一,对于提高专业领域服务智能化程度具有较高的意义和价值.针对中文口语语义表达多样化、不符合语法规范以及电商领域特殊性问题,提出一套流式的中文知识图谱自动问答系统CEQA,能够较好地完成电商领域商品咨询以及统计推理等复杂问题,特别是有效地提升了中英文混合商品名称识别、语义链接以及复杂问句的依存分析等方面的性能.实验结果表明,该系统在电商领域问答应用中具有较高的准确率和实用价值.
【期刊名称】大思英语加盟《计算机应用与软件》
【年(卷),期】2017(034)005
【总页数】7页(P153-159)
2017高考题【关键词】自动问答;知识图谱;语义网;本体
【作 者】完好无缺的意思杜泽宇;杨燕;贺樑
【作者单位】华东师范大学信息科学技术学院 上海 200062;华东师范大学信息科学技术学院 上海 200062;华东师范大学信息科学技术学院 上海 200062
【正文语种】中 文
【中图分类】TP3
知识图谱最早起源于Google的Knowledge Graph,它本质上是一种语义网络,其结点代表实体或者概念,边代表实体/概念之间的各种语义关系。随着结构化数据源的剧增,互联网正在从大量互相链接的网页向包含大量描述各种实体和实体之间丰富关系的语义网演进。如今已经有很多著名的知识图谱知识库,如DBpedia、Freeba、Yogo、百度知心、知立方等。知识图谱对搜索引擎提供语义层面上的支持,用户通过关键词搜索模式已经很难满足用户的需求[1]。用户更希望通过自然语言查询,直接得到所需的答案,智能问答系统正在成为新一代信息检索技术发展的必然趋势。
知识图谱构建是自底向上数据驱动型,相对于本体而言,数据语义表达灵活,实体覆盖率更高,语义关系也更加全面。现有的知识图谱的标准数据通常是由RDF三元组数据存储形式构成,即:<主语,谓语,宾语>,还有一些加入本体信息结构的OWL数据,其中包含本体的基本概念,例如类(Class)、属性(Property)、实例(Individual)等。庞大知识图谱不仅包含事实类知识,还有丰富的语义知识为自然语言理解、知识推理和计算等方面提供强有力
my days
的支持。
英语四级查分
基于知识图谱的问答系统有两大核心问题,前端语义理解和后端知识图谱构建。通用的问答流程是将自然语言翻译成结构化的查询语言,比如SQL[2]、SPARQL[3-5],以及其他的语言[6-8]查询知识图谱中的实体和关系。基于知识图谱的自动问答系统能够支持推理等更多复杂的问题,如包含逻辑判断的问句,如电商中“与iphone5s相同尺寸的手机有哪些?” 等这类问句。近年来,IBM 的Waston、Google Now和Siri等都应用了知识图谱相关技术,目前,我国电商行业发展迅速,用户对于商品的咨询量较大,自动问答系统可以部分缓解人工客服压力,做到24×7在线服务,并且容易结合用户信息扩展为对用户提供个性化智能服务,例如京东的JIMI机器人可以提供基本查询和聊天等服务。
petals on the wind
国内外在语义网相关问答系统方面已经有了很长时间的研究。AquaLog[9]是较早基于多样化语义网资源进行自动问答的系统,其主要特点在于融合了消岐与排序的技术,可以处理多个语义网资源混合情况下的问答。其瓶颈在于无法处理类似于<Counting ,how many , higher than>等需要统计的复杂问题。ORAKEL[10]和Pythia[11]是基于本体理论的语义网自动问答系统,本体的表达方法可以用于推理并解决复杂的语义问题。这类系统需要构建
领域内的知识库词典,而不需进行实体的链接。虽然有较高的准确性,但人工构建的覆盖率和代价都过高。也有系统提出使用传统的语法解析方法,通过依存句法分析来进行初步的语义块提取。这类方法回答问题的准确度可以保证,但对于口语类型的短文本,单纯使用依存句法分析的结果,效果并不理想。TBSL[3]提出了基于模板的自动问答方法,是目前效果较好的方法,但生成的模板固定化,为了能够覆盖全部可能的问题,TBSL往往会生成过多的候选项,使得系统性能下降。
目前大部分性能优秀的系统和研究都基于英文,因此在中文方面存在很多挑战:① 口语表达多样化,用户的表达往往无法在知识库中进行识别。②不符合语法,对于语法复杂的问句进行依存关系分析时存在大量语义提取错误的问题。③领域特殊性,例如,实体名称可能包含品牌型号等中英文混杂情况,如果用通用分词软件无法做到正确的实体识别。
本文在TBSL算法的基础上,针对中文特定领域内的知识库进行优化,提出了一套流式的中文知识图谱自动问答系统CEQA,能够较好地完成商品咨询以及统计推理等复杂问题。针对商品名称特征,提出了混合词典的CRF方法,对该领域特殊实体识别有较好的效果;针对依存分析对于复杂问句三元组提取存在噪声的问题,本文在哈工大LTP语义依存分析 SD
P(Semantic Dependency Parsing)[12]的基础上,提出了从三元组类别识别,到SDP依赖缩减,语义槽提取等一套算法框架,提高了语义三元组提取的准确率;为了解决自然语言翻译成SPARQL查询中自然语言多样性表达的问题,本文提出利用Word2Vec[13]进行词与词直接的语义相似性计算,不需要标注大量数据,在电商领域的语义链接问题上取得了较好的效果。识图谱的自动问答系统已成为最新最热的研究范畴。
基于知识图谱问答系统解决核心问题的方法主要有三类:基于模式的问答系统、基于统计学习的语义提取技术和基于依赖树的语义提取技术。基于模式的问答系统根据模板和规则最早的系统采用了基于模式匹配的语义提取方法,找到符合规则的问句,利用制定好的模板进行转换。如:找到一句话中含有(首都,国家)这一对关键词,则认为该句的问题是询问国家的首都。TBSL系统第一步根据依赖关系、词性关系等生成基本的三元组,继而采用构建SPARQL解析器来生成查询模板。使用更多的信息提取三元组的准确率要高于直接使用依赖关系来构建查询。基于统计学习的语义提取技术主要是机器学习的思路,直接针对这种图结构与关系数据进行学习, 包括ILP归纳逻辑编程和SRL统计关系学习[14]以及最近的一些研究,如:利用SVM进行语义在线学习[14-16]。推理一直是使用语义网的焦点,基于统计的方法虽然可以一定程度使用语义网的资源进行计算,但也会失去语义网结构中最
重要的本体以及支持推理的特性。由于语义网结构数据大量涌现,在很多情况下基于统计的机器学习技术非常有效,大量的自动问答系统都应用了基于统计的基本思想。基于依赖树的语义提取技术, 利用语法树进行语义提取非常符合语义网本身的链接结构,很多方法都依赖于一定的语法解析器。
另一些系统如FREyA[17],在QuestID[18]的基础上加入了用户模型,利用用户反馈信息提升领域词典映射的准确度。而RTV[19]混合了一般基于字典的方法和统计机器学习的方法,将隐马尔科夫模型加入三元组映射中,相似的系统还有Ngonga[20]。这些系统虽然在模型上有一定的优化,但都是针对英语系的知识库和语法规律进行。中文领域也有一些基于语义网的研究,最早在文献[21]的研究中提出了基于本体的自动问答算法,回答了几种特殊的问题,但模板适用性有一定限制。最新的中文领域的文章[22]对问题进行了分类和细致的处理,但需要大量的问题库。本文在已有研究成果的基础上,提出了面向电商领域的中文知识图谱问答系统(CEQA)。
spoiled2.1 系统结构
CE-QA方法是一套针对特定领域的算法框架,重点解决将中文自然语言转换为SPARQL查
询的问题。本文特别针对电商领域进行了实验,在准确率和算法运行效率方面与其他方法进行了对比,取得了较好的效果。整体算法框架如图1所示。
(1) 自然语言问题输入:输入电商领域与商品查询相关的问题,例如,夏普支持翻盖的手机有哪些?
(2) 问题分类:对于输入的自然语言,进行问题的分类。本文采用基于SVM算法分类。
(3) 问题分析:主要完成分词、词性标注、实体识别和实体消歧工作。本文基于LTP的分词包之后,如,诺基亚8200 被切分成<诺基亚,8200>, 斯黛尔塑颜腮红被切分成<斯黛尔,塑颜,腮红>,另外,苹果在电商领域中为品牌词,而不是水果。所以需要针对电商领域的数据库构建词典并训练其特定的实体识别器。在得到分词序列和体序列之后,本文依据SDP的初步依赖结果进行缩减,提出了SDP-Reduce的方法,缩减了复杂的依赖关系。
(4) 语义槽提取:语义槽是代表自然语言的三元组集合,是表达问句语义的基本组成,其中的槽代表待链接的自然语言描述,由3个部分构成:一个变量、一个可能的URL(类别:class,属性:property,实体:resource)、语义块(词或词组)。本模块主要完成类型判别,yhoo
ctx例如夏普=resource,翻盖=property,手机=class,以及变量提取,<?x,resource,夏普><?y,property翻盖>,<?z,class,手机>。本文提出了粗分类的方式,先简单地将依赖缩减后的语义块分别映射到资源、属性、和类别上,这里简化RDF的类别仅分为3类,保证粗分类的准确度。
(5) SPARQL抽取:主要完成构造SPARQL模板工作。例如,Select?x WHERE {?x?p?y;?x rdf:type?z}。
(6) 语义链接:主要解决语义槽中的待链接自然语言表达分别链接到 <类别,资源,实体> 对应的知识图谱中的URL上。例如,<res:夏普,resource,夏普>,<db:翻盖,property,翻盖>,<db:手机,type,手机>。其中,res:代表命名空间。/resource的缩写,后文均以缩写形式表示。