知识图谱⽂献综述
⽂章⽬录
知识库是基于知识的系统数据库。并不是所有具有智能的程序都拥有知识库,只有基于知识的系统才拥有知识库。许多应⽤程序都利⽤知识,其中有的还达到了很⾼的⽔平,但是,这些应⽤程序可能并不是基于知识的系统,它们也不拥有知识库。⼀般的应⽤程序与基于知识的系统之间的区别在于:⼀般的应⽤程序是把问题求解的知识隐含地编码在程序中,⽽基于知识的系统则将应⽤领域的问题求解知识显式地表达,并单独地组成⼀个相对独⽴的程序实体。
在通⽤知识库的构建⽅⾯,⽬前学术上已有⼀套相对⽐较成熟的技术体系,市场上也有多款商⽤知识库投放,如⾕歌的“Google Knowledge Ba”、百度的“知⼼”等。⽽对于特定领域的知识库,通常都⽤的是⼈⼯⼿动补全信息的构建⽅式,从⽬前的研究看来,知识库作为知识系统的⼀种表⽰形式,与知识图谱的相关特性与技术,有着⼀些共通的特性,因此,本⽂从软件⼯程⾓度出发,提出⼀种基于知识图谱的构建技术的领域知识库构建⽅法。
1、知识图谱的基本介绍
20 世纪中叶,普赖斯等⼈提出使⽤引⽂⽹络来研究当代科学发展脉络的⽅法,⾸次提出了知识图谱的概
念。 1977 年,知识⼯程的概念在第五届国际⼈⼯智能⼤会上被提出,以专家系统为代表 的知识库系统开始被⼴泛研究和应⽤。到20世纪90年代,机构知识库的概念被提出,⾃此关于 知识表⽰、知识组织的研究⼯作开始深⼊开展起来。 机构知识库系统被⼴泛应⽤于各科研机构和 单位内部的资料整合及对外宣传⼯作。
进⼊21 世纪,随着互联⽹的蓬勃发展以及知识的爆炸式增长,搜索引擎被⼴泛使⽤。 但⾯对 互联⽹上不断增加的海量信息,仅包含⽹页和⽹页之间链接的传统⽂档万维⽹已经不能满⾜⼈们迅速获取所需信息的需求。 ⼈们期望以更加智能的⽅式组织互联⽹上的资源,期望可以更加快速、 准确、智能地获取到⾃⼰需要的信息。为了满⾜这种需求,知识图谱应运⽽⽣。它们⼒求通过将 知识进⾏更加有序、有机的组织,对⽤户提供更加智能的访问接⼝,使⽤户可以更加快速、准确地访 问⾃⼰需要的知识信息,并进⾏⼀定的知识挖掘和智能决策。从机构知识库到互联⽹搜索引擎, 近年来不少学者和机构纷纷在知识图谱上深⼊研 究,希望以这种更加清晰、动态的⽅式展现各种概念之间的联系,实现知识的智能获取和管理。
2012 年 11 ⽉ Google 公司率先提出知识图谱 (Knowledge graph,KG) 的概念[2],表⽰将在其搜索结果中加⼊知识图谱的功能。据
2015 年 1 ⽉统 计的数据,Google 构建的 KG 已拥有 5亿个实体, 约 35 亿条实体关系信息,已被⼴泛
⽤于提⾼搜索 引擎的搜索质量。另⼀个代表性的知识图谱系统 是微软公司构建的Proba。根据微软公司官 ⽹上的数据显⽰,截⾄ 2016年 4 ⽉,Proba 已拥 有总量超过千万级的概念,其中核⼼概念⼤概有 270 万个,Proba已成为知识库系统中拥有概念 数最多的系统。上海交通⼤学的 zhishi. me 是国 内构建的最早的知识库,zhishi. me 知识库通过整 合维基百科(中⽂)、百度百科、互动百科中的数 万⽅数据 据以提供关联开放数据(Linking open
data,LOD)的服务给知识库⽤户。中国科学院机构知识库 (Chine academy of
sciences institutional repository, CAS-IR)对 DSpace 软件进⾏的⼆次开发。截⽌到 2013 年 9 ⽉,
CAS-IR 累计采集和保存超过 44 万个的科研成果,其中,超过 70% 的科研成果 可获取全⽂,CAS-IR是⽬前国内机构知识库⽹络中规模最⼤的⼀个;此外,国内知名搜索引擎公司也纷纷投⼊对知识图谱的构建,并在其搜索引擎中添加了知识图谱的功能,⽐如百度的“知⼼”和搜狗
的“知⽴⽅”。
知识图谱将互联⽹的信息表达成更接近⼈类认知世界的形式,提供了⼀种更好地组织、管理和理解互联⽹海量信息的能⼒。知识图谱给互联⽹语义搜索带来了活⼒,同时也在智能问答、⼤数据分析与决策中显⽰ 出强⼤威⼒,已经成为互联⽹基于知识的智能服务的基础设施。知识图谱与⼤数据和深度学习⼀起,成为推动⼈⼯智能发展的核⼼驱动⼒之⼀。
2、知识图谱的构建
知识图谱,是融合认知计算、知识表⽰与推理、信息检索与抽取、⾃然语⾔处理与语义WEB 、 数据挖掘与机器学习等技术的交叉研究。知识图谱研究,⼀⽅⾯探索从互联⽹ 语⾔资源中获取知识的理论和⽅法;另⼀⽅⾯促进知识驱动的语⾔理解研究。随着⼤数据时代的到来,研究从⼤数据中挖掘隐含的知识理论与⽅法,将⼤数据转化为知识,增强对互联⽹资源的内容理解,将促进当代信息处理技术从信息服务向知识服务转变[3]。具体地,知识图谱技术包括知识表⽰、知识图谱构建和知识图谱应⽤三⽅⾯的研究内容:
1)知识表⽰研究客观世界知识的建模,以⽅便机器识别和理解,既要考虑知识的表⽰与存储,⼜要考虑知识的使⽤和计算;
2. 知识图谱构建解决如何建⽴计算机算法从客观世界或者互联⽹的各种数据资源中获取客观世界的知识, 主要研究使⽤何种数据和⽅法
抽取何种知识;
3. 知识图谱应⽤主要研究如何利⽤知识图谱建⽴基于知识的智能服务系统,更好地解决实际应⽤问题。
(1) 知识图谱的分类
知识图谱经历了由⼈⼯和群体智慧构建,到⾯向互联⽹数据利⽤机器学习和信息抽取技术⾃动获取的过程。根据信息来源和获取⽅式的不同,⽬前的知识图谱分为以下⼏类。
1. 依靠⼈⼯构建的知识资源:早期知识资源通过⼈⼯添加和合作编辑获得,如英⽂ WordNet 和 Cyc 项⽬以及中⽂的 HowNet 。Cyc
是⼀个通⽤的世界知识库,始建于1984 年,其⽬的是将上百万条知识编码为机器可处理形式,并在此基础上实现知识推理等⼈⼯智能相关任务,共包含了五⼗万实体,近三万个关系以及五百万个事实。
2. 基于群体智能的知识图谱:维基百科是⾄今利⽤群体智能建⽴的互联⽹上最⼤的知识资源,因此出现了 很多使⽤维基百科构建知识库
的项⽬,如DBpedia、 YAGO 和 Freeba[4],以及⾕歌的KG等。DBpedia 以构建本体的形式对知识条⽬进⾏组织。YAGO 融合WordNet 良好的概念层次结构和维基百科中的⼤量实体数据。Freeba 是基于维基百科,使⽤群体智能⽅法建⽴的包含 6800万实体的结构化数据的知识图谱。清华⼤学和上海交通⼤学通过利⽤互动百科、百度百科,建⽴⼤规模知识图谱 XLORE 和 。
XLORE以英⽂维基百科为桥梁,通过跨语⾔链接技术,建⽴融合了四⼤中英⽂百科数据的跨语⾔知识
库[5-9]。
3. 基于互联⽹链接数据构建的知识资源:国际万维⽹组织 W3C 于2007年 发 起 的 开 放 互 联 数 据 项 ⽬ (Linked Open
Data,LOD), 为实现⽹络环境下的知识发布、互联、共享和服务提供了创新技术,为智能搜索、知识问答和语义集成提供了创新源动⼒。Sean Bechhofer 等⼈在科学领域⾃建了⼀个近似于 LOD的语义数据资源,该资源包含更准确的学术⽤语,并能很好地反映研究者的影响⼒。
[if !supportLists]4) [endif]基于机器学习和信息抽取构建的知识图谱:从互联⽹数据⾃动获取知识是建⽴可持续发展知识图谱的发 展趋势。这类知识图谱构建的特点是⾯向互联⽹的⼤规模、开放、异构环境,利⽤机器学习和信息抽取技术⾃卡内基梅隆⼤学动获取Web上的信息构建知识库。如华盛顿⼤学图灵中⼼的KnowItAll 和 TextRunner 、 的 “ 永不停歇的语⾔学习者”(Never-Ending
Language Learner,NELL) 都是这种类型的知识库[10]。
(2) 知识库的构建
知识库的构建⽅法
知识图谱的构建过程可以分为⾃顶向下和⾃底向上两种⽅式。⾃顶向下⾸先从数据源中学习本体,得到术语、顶层的概念、同义和层次关系以及相关规则,然后进⾏实体学习的过程,将实体纳⼊前⾯的概念体系中。⾃底向上的构建过程与此相反,从归纳实体开始, 进⼀步进⾏抽象,逐步形成分层的概念体系。在实际的构造过程中,可以先后混合使⽤两种⽅式, 来提⾼实体抽取的准确度。
其中,基于统计的机器学习命名实体关系(NER)抽取作为知识抽取的关键⾸先需要⼤量⼈⼯标注的语料库,然后在语料库基础上进⾏特征抽取和选择,通过利⽤不同的机器学习算法训练分类模型,⾃动抽取、发现新的实体对及关系。这类⽅法很⼤程度上依赖于⾃然语⾔处理⼯具[12](如词性标注、句法分析等),这些步骤会带来如下问题:
①⾃然语⾔处理⼯具存在不同程度的错误,使⽤多个⼯具会造成错误累积,影响最终的分类性能;
www xdf cn②特征选择依靠专家知识和经验,需要花费⼤量时间设计和验证特征;
③有些使⽤⼈数较少的语⾔没有完善的⾃然语⾔处理⼯具,此时这些⽅法不再适⽤。传统的语义⽹络[13]结合机器学习等⽅法,使知识图谱的构建技术⼜迎来新的研究点。
Heckerman等在上世纪末就提出了基于贝叶斯⽹络和统计学习的知识图谱构建⽅法[14],Cheong H等提出了⼀种从⽂本⽂档中⾃动抽取功能知识的⽅法[15],其对⾃动构建知识图谱具有指导意义。Nick
M等⼈则聚焦研究了关联机器学习与知识图谱的⽅法,提出了如何利⽤统计模型来构建知识图谱并⽤于决策分析[16]。
近年来,深度学习框架的神经⽹络模型成为实体关系抽取的新⽅法,深度学习是⼀种特殊的机器学习⽅法,是机器学习的⼀个分⽀,不同之处在于:神经⽹络模型⾃动学习句⼦特征,⽆需复杂的特征⼯程。
李枫林等研究了基于深度学习框架的实体关系抽取的进展,对于现今⽕热的深度学习应⽤于知识图谱提供了⽀持[17]。王蕾等提出⼀种基于神经⽹络的⽚段级中⽂命名实体识别⽅法,该⽅法能有效地处理中⽂⽚段中的命名实体关系[18]。Garcez 等⼈则使徒使⽤深度置信⽹络来提取知识并构建知识图谱[19]。
对于⽂本类数据进⾏知识图谱的构建,国内外学者利⽤相关神经⽹络模型,做了⼤量的研究与⼯作,其利⽤各种神经⽹络模型,对各个不同模型与算法构建的知识图谱的性能与质量进⾏了充⾜的研究[20-40]。在经过⼤量学者的研究和分析,发现长短记忆神经⽹络(LSTM)对于处理⽂本来构建知识图谱,有着⼀定的优势,也给处理中⽂⽂本构建领域知识库提供了⼀定思路[41-46]。
(3)基于知识图谱的领域知识库的存储
披头士乐队经典歌曲
国内外学者研究发现,在对基于知识图谱技术⽣成的领域知识库的存储过程中,图数据库有着天然的优势,在数据结构、数据检索以及图计算等⽅⾯有着很好的性能⽀持。
图数据库源起欧拉和图理论,也可称为⾯向/基于图的数据库,区别于传统的SQL数据库系统,图数据库⼜可以称为NOSQL数据库,对应的英⽂是Graph Databa。图数据库的基本含义是以“图”这种数据结构存储和查询数据,⽽不是存储图⽚的数据库。它的数据模型主要是以节点和关系(边)来体现,也可处理键值对。它的优点是快速解决复杂的关系问题。⽬前市⾯上有很多图数据库,例如:Neo4J、ArangoDB、OrientDB、FlockDB、GraphDB、InfiniteGraph、Titan、Cayley等。
吴鹏等⼈利⽤本体和NOSQL图数据库⽅法,提出了基于FBS模型的机械产品⽅案设计本体构建⽅法,以及基于本体和Neo4j的机械产品⽅案设计存储模型,应⽤于农业机械产品设计的知识图谱,很好的适应了结构化和半结构化的知识[47]。
典型的NOSQL图数据库系统,其存储的是结构化的图数据。在数据库内以⽹络的⽅式代替传统的表格进⾏存储。同时⽀持丰富的图计算,是⼀个⾼性能,⾼可⽤的图计算引擎。同时也具备完整的数据库存储功能。其主要特点有:
1. ⽀持事务并发,在对图数据库进⾏操作的时候,对数据的修改都是可以再⼀个事务内进⾏,可以确保数据在存储修改过程中的⼀致
性。
2. 完善的图数据检索能⼒,⽀持⾼效率的查询语⾔来检索数据,该语⾔是专门针对图数据库进⾏操作的数据库语⾔,同时提供完整的API
⽀持。名人演讲
3. 提供丰富的访问⽅式,图数据库⽀持多种⽅式进⾏访问,可以利⽤API的嵌⼊式开发,将数据库的操作嵌⼊到系统应⽤中执⾏;并且⽀
持REST风格接⼝进⾏访问,通过http的协议⽅式进⾏数据库操作。
4. ⽀持图形界⾯,可以⽅便⽤户进⾏丰富GUI界⾯的访问及操作。
实体关系抽取(NER)作为信息抽取的核⼼⼯作,对完善知识库、优化搜索引擎、开发智能问答系统都具有重要的价值,同时对于实体关系的链接则是构建知识库的关键[48]。⽽命名实体识别⼀直是⾃然语⾔处理中的⼀个难点所在,国内外专家学者对此进⾏了⼤量研究,从深度语义模型开放关系抽取[49],机器学习希望计算机更智能、快速的处理数据,⽽深度学习框架的神经⽹络模型最⼤特点在于单词的特征表⽰和特征的⾃动学习,模型能保留⽂本的所有特征,数据量越⼤, 模型泛化能⼒越强。使⽤神经⽹络模型实现关系抽取最关键的是根据任务选择合适的词向量,再利⽤ RecNN/CNN/ RNN/L
STM等不同的⽹络模型⾃动提取特征,摈弃复杂的⼈⼯特征⼯程[50]。
⽽针对数据来源,知识图谱的知识来源通常有两类,⼀类是通过互联⽹上分布的开放,海量的异构数据,⼀类是已有的离线结构化或⾮结构化数据,例如⽂档⽂本。本⽂中基于⽔泥能耗相关国标的知识库构建,即采⽤第⼆种数据来源,针对这⼀类资源采⽤NER的概念层次学习,以及基于语义分析的事实学习,来对⽂档数据进⾏信息抽取,并利⽤NoSQL数据库技术来存储相关的知识,并将其通过⼀定的前端技术,进⾏可视化呈现,提供给课题组相关学者进⾏数据研究。
⽂献资料
sunny days[1]李涛, 王次⾂, 李华康. 知识图谱的发展与构建[J]. 南京理⼯⼤学学报: ⾃然科学版, 2017, 41(1): 22-34.
[3]曹倩,赵⼀鸣. 知识图谱的技术实现流程及相关应⽤[J]. 情报理论与实践,2015,38(12): 13-18.
[4]Bollacker K, Evans C, Paritosh P, et al. Freeba:A Collaboratively Created Graph Databa for Structuring Human Knowledge[C]// SIGMOD Conference. 2008:1247-1250.
[5]杨思洛,韩瑞珍. 知识图谱研究现状及趋势的可视化分析[J]. 情报资料⼯作,2012,33(4):22-28.
[6]陈和. 机构知识库发展趋势探析[J]. 图书情报⼯作,2012,21:62-66.
[7]鄢珞清. 知识库的知识表达⽅式探讨[J]. 情报杂志,2003,(4):63-64
[8]彭乾慧. 领域知识图谱的⾃动化构建[D]. 重庆⼤学, 2017.
[9]宋园园SYY. ⼀种基于领域知识的特征提取算法[J]. 云南民族⼤学学报: ⾃然科学版, 2017, 26 (3): 252-257.
[10]袁旭萍. 基于深度学习的商业领域知识图谱构建[D].华东师范⼤学商学院,2015.
[11]程如烟, 罗晖. 制定国家标准化战略抢夺标准控制权——对《世界主要国家的标准化战略》报告的述评[J]. 中国软科学, 2007, (7):158-160.
[12]宗成庆. 统计⾃然语⾔处理[M]. 清华⼤学出版社, 2013.
[13]Hartley R T, Barnden A J A. Semantic Networks: Visualizations of Knowledge[J]. Trends in Cognitive Sciences, 1997,
1(5):169.
[14] Heckerman D, Dan G, Chickering D M. Learning Bayesian networks: The combination of knowledge and statistical
data[J]. Machine Learning, 1995, 20(3):197-243.
[15]CheongH, Li W, Cheung A, Nogueira A, Iorio F.Automated Extraction of Function Knowledge From Text[J]. ASME. J. Mech.Des. 2017, 139(11):111407-111407-9.
photo的复数[16]Nickel M, Murphy K,Tresp V, et al. A Review of Relational Machine Learning for Knowledge Graphs[J].Proceedings of the IEEE, 2016, 104(1):11-33.
[17]李枫林, 柯佳. 基于深度学习框架的实体关系抽取研究进展[J]. 情报科学, 2018, 36(3): 169-176.
[18]王蕾, 谢云, 周俊⽣, 等. 基于神经⽹络的⽚段级中⽂命名实体识别[J]. 中⽂信息学报, 2018, 32(3): 84-90,100.
[19] Tran S N, Garcez A S D. Deep Logic Networks: Inrting and Extracting Knowledge From Deep Belief Networks[J]. IEEE Transactions on Neural Networks & Learning Systems, 2018, 29(2):246-258.
[20]王毅, 谢娟, 成颖. 结合 LSTM 和 CNN 混合架构的深度神经⽹络语⾔模型[J]. 情报学报, 2018, 37(2): 194-205.
[21]An W, Chen Q, Yang Y, et al. Knowledge Memory Bad LSTM Model for Answer Selection[C] //International
Conference on Neural Information Processing. Springer, Cham, 2017: 34-42.
either怎么读[22]Dong C, Zhang J, Zong C, et al. Character-bad LSTM-CRF with Radical-level Features for Chine Name Entity Recognition[M]//Natural Language Understanding and Intelligent Applications.Springer,Cham,2016:239-250.
[23]张艳,宗成庆,徐波. 汉语术语定义的结构分析和提取[J]. 中⽂信息学报,2003,17(6):9-16
[24]刘浏, 王东波. 命名实体识别研究综述[J]. 情报学报, 2018, 37(3): 329-340.
[25]曹浩. 基于机器学习的双语词汇抽取问题研究[D].南开⼤学研究⽣学院,2011.
[26]孙霞,董乐红. 基于监督学习的同义关系⾃动抽取⽅法[J]. 西北⼤学学报,2008,38(1):35-39.
[27]关键. ⾯向中⽂⽂本本体学习概念抽取的研究 [D]. 吉林⼤学,2010.
[28]车海燕, 冯铁, 张家晨,等. ⾯向中⽂⾃然语⾔⽂档的⾃动知识抽取⽅法[J]. 计算机研究与发展, 2013, 50(4):834-842.
[29]寇⽉,申德荣,李冬,等. ⼀种基于语义及统计分析的Deep Web 实体识别机制[J]. 软件学报, 2008, 19(2):194-208.
[30]庄严, 李国良,冯建华. 知识库实体对齐技术综述[J]. 计算机研究与发展, 2016, 53(1):165-192.
[31]Cui M, Li L, Wang Z, et al. A Survey on Relation Extraction[C]//China Conference on Knowledge Graph and Semantic Computing. Springer, Singapore, 2017: 50-58.
[32]R. Upadhyay and A. Fujii, Semantic knowledge extraction from rearch documents,2016 Federated Conference on Computer Science and Information Systems (FedCSIS), Gdansk, 2016, 439-445.
[33]Xu B, Xu Y, Liang J, et al. CN-DBpedia: A never-ending Chine knowledge extraction system[C]//International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems. Springer, Cham, 2017: 428-438.
[34] Auer S, Bizer C, Kobilarov G, et al. DBpedia: A Nucleus for a Web of Open Data[C]// The Semantic Web, International Semantic Web Conference, Asian Semantic Web Conference, ISWC 2007 + Aswc 2007, Busan, Korea, November 2007: 722-735.
四级准考证丢了
[35]L. Akoglu, H. Tong and D. Koutra, Graph badanomaly detection and description: A survey, Data Mining and KnowledgeDiscovery[J], 2014, 29(3):1-63.
[36]Aprosio A P,Giuliano C, Lavelli A.Automatic Expansion of DBpedia Exploiting Wikipedia Cross-Language
Information[C]// Extended Semantic Web Conference.Springer, Berlin, Heidelberg, 2013: 397-411.
[37]Yan Q, Shen C, Li S, et al. Domain-Specific Chine Word Segmentation with Document-Level Optimization[C]//National CCF Conference on Natural Language Processing and Chine Computing. Springer, Cham, 2017, 353-365.
[38] Zuhori S T, Zaman M A, Mahmud F. Ontological Knowledge Extraction from Natural Language text[C]//Computer and Information Technology (ICCIT), 2017 20th International Conference of. IEEE, 2017: 1-6.
[39]Martinez-Rodriguez J L, Lopez-Arevalo I, Rios-Alvarado A B. OpenIE-bad approach for Knowledge Graph construction from text[J]. Expert Systems with Applications, 2018, 113: 339-355.
[40]Wu Y, Mu T, Goulermas JY.Translating on Pairwi Entity Space for Knowledge Graph Embeddin
g[J].Neurocomputing, 2017, 260:411-419.
[41]Huang Y, Yang X, Zhuang F, et al. Automatic Chine Reading Comprehension Grading by LSTM with Knowledge Adaptation[C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining. Springer, Cham, 2018: 118-129.
[42]Sha L, Li S, Chang B,et al.Recognizing Textual Entailment via Multi-task Knowledge Assisted
investLSTM[M]//ChineComputational Linguistics and Natural Language Processing Bad on NaturallyAnnotated Big Data. Springer, Cham, 2016: 285-298.
w ind[44]Li S L, Xu B, Chung T L. Definition Extraction with LSTM Recurrent Neural Networks[M]//Chine Computational Linguistics and Natural Language Processing Bad on Naturally Annotated Big Data. Springer, Cham, 2016: 177-189.
[45]Liu J, Ren H, Wu M, et al. Multiple relations extraction among multiple entities in unstructured text[J]. Soft Computing, 2018, 22(13): 4295-4305.
[46]Ouyang L, Tian Y,Tang H, et al. Chine Named Entity Recognition Bad on B-LSTM Neural Networkwith Additional Features[C]//International Conference on Security, Privacy andAnonymity in
Computation, Communication and Storage. Springer, Cham, 2017:269-279.
[47]吴鹏, 刘恒旺, 丁慧君. 基于本体和NoSQL的机械产品⽅案设计的知识表⽰与存储研究[J]. 情报学报, 2017, 36(3):285-296.
[48] Wu G, He Y, Hu X. Entity Linking: An Issue to Extract Corresponding Entity With Knowledge Ba[J]. IEEE Access, 2018, 6(99):6220-6231.
[49]Bianchi F, Soto M, Palmonari M, et al. Type vector reprentations from text: An empirical analysis[C]//Deep Learning for Knowledge Graphs and Semantic Technologies Workshop, co-located with the Extended Semantic Web Conference. 2018.
obrve[50]Luo, A., Gao, S., &Xu, Y. .Deep Semantic Match Model for Entity Linking Using Knowledge Graph and Text[J].Procedia Computer Science,2018,129:110–114.