知识图谱简介(⼀)——相关概念
如何快速美白皮肤知识图谱是Google在2012年5⽉17⽇提出的,其初衷是为了提⾼搜索引擎的能⼒,改善⽤户的搜索质量以及搜索体验。当前的⼈⼯智能技术其实可以简单地划分为感知智能(主要是图像、视频、语⾳、⽂字等识别)和认知智能(涉及知识推理、因果分析等),知识图谱技术就是认知智能领域中的主要技术,是⼈⼯智能技术的组成部分,其强⼤的语义处理和互联组织能⼒,为智能化信息应⽤提供了基础。
⼀个知识图谱旨在描述现实世界中存在的实体以及实体之间的关系。随着⼈⼯智能技术的发展和应⽤,知识图谱作为关键技术之⼀,已被⼴泛应⽤于智能搜索、智能问答、个性化推荐、内容分发等领域。
从使⽤范围来说,知识图谱分为通⽤知识图谱和领域知识图谱,通⽤知识图谱强调的是⼴度,数据多来⾃于互联⽹,⽽领域知识图谱应⽤于垂直领域,成为了基础数据服务。
巴尔扎克简介知识图谱的定义
知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成⼀张巨⼤的语义⽹络图,节点表⽰实体或概念,边则由属性或关系构成。现在的知识图谱已被⽤来泛指各种⼤规模的知识库。
三元组
如上图所⽰,知识图谱中包含三种节点,其基本形式为(实体1-关系-实体2)、(实体-属性-属性值)。
实体:指的是有可区别性且独⽴存在的事物。如某个国家:中国、英国等;某个城市:北京、伦敦等。
语义类:具有某种特性的实体构成的集合,如国家、城市、民族等。
属性值:实体指向的属性的值。例如中国(实体)⾯积(属性)960万平⽅公⾥(属性值)。
关系:在知识图谱上,关系是把kk个图节点(实体、语义类、属性值)映射到布尔值的函数。
基于上述的语义图概念,我们可以构建⼀个国家的知识图谱作为例⼦,如下:
知识图谱⽰例
这个知识图谱显⽰中国、美国和其⾸都的关系,还有其属性值。
知识图谱架构
ees
知识图谱架构包括⾃⾝逻辑结构以及构建知识图谱所采⽤的技术架构。
知识图谱的逻辑结构:知识图谱在逻辑上可分为模式层与数据层两个层次。数据层主要是由⼀系列的事实组成的,通常使⽤三元组来表达这些事实,因⽽可以选择图数据库来作为存储介质,存储这些三元组。常⽤的图数据库有Neo4j、twitter的FlockDB、sones的GraphDB 等。模式层则构建在数据层之上,是知识图谱的核⼼,通常采⽤本体库来管理知识图谱的模式层。通过本体库形成的知识库不仅层次结构较强,并且冗余较⼩。
贝克曼重排
本体库:本体是指⼀种“形式化的,对于共享概念体系的明确⽽⼜详细的说明”,换⾔之即对于特定领域之中某套概念及其相互之间关系的形式化表达。
常见的本体构成要素包括:实体、语义类、属性、关系等。例如NetworkConnection的概念,其中包含NetProvider、NetSpeed实体,还有NetProvider和NetSpeed之间的关系概念,这些实体的属性概念。
知识图谱架构
上图中虚线框中的部分为知识图谱的构建过程,也包含知识图谱的更新过程。这⼀过程包括:信息抽取、知识表⽰、知识融合、知识推理四个过程。⾸先从最原始的数据(包括结构化、半结构化、⾮结构化数据)出发,采⽤⼀系列⾃动化或半⾃动化的技术⼿段,从原始数据中提取出实体、关系、属性等知识要素,通过⼀定的⼿段对知识要素进⾏表⽰,便于进⼀步处理,然后通过知识融合消除实体、关系、属性等指称项与事实对象之间的歧义,形成⾼质量知识库,并将其存⼊知识库的数据层和模式层。最后利⽤知识推理在已有知识库的基础上进⼀步挖掘隐含的知识,从⽽丰富扩展知识库。
知识图谱的构建⽅式主要有两种,⾃顶向下(top-down)与⾃底向上(bottom-up)两种构建⽅式。
⾃顶向下:指的是先定义好本体与数据模式,再将实体加⼊到知识库。该构建⽅式需要利⽤⼀些现有的结构化知识库作为其基础知识库。FreeBa项⽬就是采⽤这种⽅式。
⾃底向上:指的是从⼀些开放链接的数据中提取出实体,选择其中置信度较⾼的加⼊到知识库,再构建顶层的本体模式。⼤多数知识图谱都采⽤⾃底向上的⽅式进⾏构建,其中最典型的就是Google的Knowledge Vault和微软的Satori知识库。这也符合互联⽹数据内容知识产⽣的特点。
业界代表性知识图谱
知识图谱组织特点应⽤
FreeBa MetaWeb ·实体、语义类、属性、关系
·⾃动+⼈⼯,部分数据从维基百科等数据源抽取,
另⼀部分数据来⾃⼈⼯协同编辑
·Google Search Engine
·Google Now
Knowledge Vault Google ·实体、语义类、属性、关系
人教版高一英语必修一·超⼤规模数据库,源⾃维基百
科、FreeBa、《世界各国纪实年鉴》
·Google Search Engine
·Google Now
DBPedia莱⽐锡⼤学、柏林⾃由⼤
学、OpenLink
Software ·实体、语义类、属性、关系
·从维基百科抽取DBPedia
acquit维基数据维基媒体基⾦会·实体、语义类、属性、关系,与维基百科紧密结
合
·
⼈⼯(协同编辑)
WikiPedia
词组英文Facebook Social
Graph
okesFacebook·Facebook社交⽹络数据Social Graph Search
百度知识图谱百度·搜索结构化数据百度搜索
搜狗知⽴⽅搜狗·搜索结构化数据搜狗搜索
ImageNet斯坦福⼤学·搜索引擎conspiracy theory
·亚马逊AMT
计算机视觉相关应⽤
知识图谱相关产品CN-DBpedia
CN-DBpedia是由复旦⼤学知识⼯场实验室研发并维护的⼤规模通⽤领域结构化百科。CN-DBpedia主要从中⽂百科类⽹站(如百度百科、互动百科、中⽂维基百科等)的纯⽂本页⾯中提取信息,经过滤、融合、推断等操作后,最终形成⾼质量的结构化数据,供机器和⼈使⽤。搜索
通过上⽰地址进⼊CN-DBpedia搜索页⾯,搜索“周杰伦”,可以获得“周杰伦”的实体和实体关系、属性等。点击curiosity可以得到动态的可视化效果。
acutely
参考
[2] Bo Xu, Yong Xu, Jiaqing Liang, Chenhao Xie, Bin Liang, Wanyun Cui, and Yanghua Xiao. CN-DBpedia: A Never-Ending Chine Knowledge Extraction System. In International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems, pp. 428-438. Springer, Cham, 2017.