monroe知识图谱构建⼆、知识图谱定义与架构
维基百科对知识图谱给出的词条解释仍然沿⽤了⾕歌的定义,即:知识图谱是⾕歌⽤于增强其搜索引擎功能的辅助知识库.然⽽从业界的发展动态来看 ,这个定义显得过于简单。微软在2013年7⽉发布了⾃⼰的Satori知识库之后 ,必应(Bing)搜索引擎产品的⾼级主管Weitz 公开表⽰,发布Satori只是表明微软已有类似的技术,然⽽⽬前这⼀技术本⾝还存在许多问题,微软希望取得领导地位,⽽不是追随⾕歌。这⼀表态,折射出该领域背后的技术竞争⼗分激烈,从当前披露出来的商业产品,也能看出业界对此的普遍重视。表1给出了前主流的知识库产品和相关应⽤,其中,包含实体数最多的是WolframAlpha 知识库,实体总数已超过10万亿条.⾕歌的知识图谱拥有5亿个实体和350亿条实体间的关系,⽽且规模在不断地增加.微软的 Proba包含的概念总量达到千万级,是当前包含概念数量最多的知识库
AppleSiri,GoogleNow等当前流⾏的智能助理应⽤正是分别建⽴在 WolframAlpha知识库和⾕歌的知识图谱基础之上。值得注意的是,国内也涌现出⼀些知识图谱产品和应⽤,如搜狗的知⽴⽅,侧重于图的逻辑推理计算,能够利⽤基于语义⽹三元组推理补充实体数据,对⽤户查询进⾏语义理解以及句法分析等。
从表1可以看出,除传统搜索服务提供商之外,包括Facebook,Apple,IBM等互联⽹领军企业也加⼊了竞争。由于相关技术和标准尚未成熟,其应⽤也处于探索阶段,因此知识图谱的概念⽬前仍处在发展变化的过程中,通过对现有的研究成果进⾏⽐较和提炼,本⽂提出知识图谱的定义。jiaodong
confident是什么意思1.1、知识图谱的定义hitrun
定义1:知识图谱是结构化的语义知识库,⽤于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成⽹状的知识结构。
通过知识图谱,可以实现Web从⽹页链接向概念链接转变,⽀持⽤户按主题⽽不是字符串检索,从⽽真正实现语义检索。基于知识图谱的搜索引擎,能够以图形⽅式向⽤户反馈结构化的知识,⽤户不必浏览⼤量⽹页,就可以准确定位和深度获取知识。
定义1包含3层含义:
1)知识图谱本⾝是⼀个具有属性的实体通过关系链接⽽成的⽹状知识库。从图的⾓度来看,知识图谱在本质上是⼀种概念⽹络,其中的节点表⽰物理世界的实体(或概念),⽽实体间的各种语义关系则构成⽹络中的边。由此,知识图谱是对物理世界的 ⼀种符号表达。
suspending
21世纪网站
2)知识图谱的研究价值在于,它是构建在当前Web 基础之上的⼀层覆盖⽹络 (overlaynetwork),借助知识图谱,能够在Web⽹页之上建⽴概念间的链接关系,从⽽以最⼩的代价将互联⽹中积累的信息组织起来,成为可以被利⽤的知识。
3)知识图谱的应⽤价值在于,它能够改变现有的信息检索⽅式,⼀⽅⾯通过推理实现概念检索(相对于现有的字符串模糊匹配⽅式⽽⾔);另⼀⽅⾯以图形化⽅式向⽤户展⽰经过分类整理的结构化知识,从⽽使⼈们从⼈⼯过滤⽹页寻找答案的模式中解脱出来。
1.2、知识图谱的架构
bo xi lai知识图谱的架构,包括知识图谱⾃⾝的逻辑结构以及构建知识图谱所采⽤的技术(体系)架构。
⾸先介绍知识图谱的逻辑结构,从逻辑上将知识图谱划分为2个层次:数据层和模式层。在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。例如⾕歌的Graphd和微软的Trinity都是典型的图数据库。如果以“实体-关 系-实体”或者“实体-属性-性值”三元组作为事实的基本表达⽅式,则存储在图数据库中的所有数据将构成庞⼤的实体关系⽹络,形成知识的 “图谱 ”。约束是什么意思
模式层在数据层之上,是知识图谱的核⼼。在模式层存储的是经过提炼的知识,通常采⽤本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的⽀持能⼒来规范实体、关系以及实体的
类型和属性等对象之间的联系。本体库在知识图谱中的地位相当于知识库的模具,拥有本体库的知识库冗余知识较少。
dhcpclient
接下来从知识图谱构建的⾓度,介绍知识图谱的⼀般技术架构。图1给出了知识图谱技术的整体架构,其中虚线框内的部分为知识图谱的构建过程,同时也是知识图谱更新的过程。如图1所⽰,知识图谱的构建过程是从原始数据出发,采⽤⼀系列⾃动或半⾃动的技术⼿段,从原始数据中提取出知识要素(即事实),并将其存⼊知识库的数据层和模式层的过程.这是⼀个迭代更新的过程,根据知识获取的逻辑,每⼀轮迭代包含3个阶段:信息抽取、知识融合以及知识加⼯。
知识图谱有⾃顶向下和⾃底向上2种构建⽅式。所谓⾃顶向下构建是指借助百科类⽹站等结构化数据源,从⾼质量数据中提取本体和模式信息,加⼊到知识库中;所谓⾃底向上构建,则是借助⼀定的技术⼿段,从公开采集的数据中提取出资源模式,选择其中置信度较⾼的新模式,经⼈⼯审核之后,加⼊ 到知识库中。
在知识图谱技术发展初期,多数参与企业和科研机构都是采⽤⾃顶向下的⽅式构建基础知识库,例如,Freeba项⽬就是采⽤维基百科作为主要数据来源。随着⾃动知识抽取与加⼯技术的不断成熟,⽬前的知识图谱⼤多采⽤⾃底向上的⽅式构建,其中最具影响⼒的例⼦包括⾕歌的 KnowledgeVault和微 软的 Satori 知识库 ,都是以公开采集的海量⽹页数据为数据源,通过⾃动抽取资源的⽅式来构建、丰富和完善现有的知识库。
out there接下来,我会介绍⾃底向上的知识图谱构建技术,按照知识获取的过程,主要分为3个层次:信息抽取、知识融合以及知识加⼯,敬请
期待。