知识图谱基础(⼀)-什么是知识图谱
笔者是⼀只已经离职的AI产品经理,主要擅长的⽅向是知识图谱与⾃然语⾔处理,写这些⽂章是为了总结归纳⽬前已经搭建的知识体系,也在于科普。如有不对,请指正。
知识图谱的定义
知识图谱在国内属于⼀个⽐较新兴的概念,国内⽬前paper都⽐较少,应⽤⽅主要集中在BAT这类⼿握海量数据的企业,这个概念是google在2012年提出的,当时主要是为了将传统的keyword-ba搜索模型向基于语义的搜索升级。知识图谱可以⽤来更好的查询复杂的关联信息,从语义层⾯理解⽤户意图,改进搜索质量。
个⼈认为,知识图谱最⼤的优势是在于对数据的描述能⼒⾮常强⼤,各种机器学习算法虽然在预测能⼒上很不错,但是在描述能⼒上⾮常弱,知识图谱刚好填补了这部分空缺。
镶是什么意思知识图谱的定义⾮常多,我这⾥提供⼀部分我⾃⼰的理解:
1.知识图谱主要⽬标是⽤来描述真实世界中存在的各种实体和概念,以及他们之间的强关系,我们⽤关系去描述两个实体之间的关联,例如姚明和⽕箭队之间的关系,他们的属性,我们就⽤“属性--值对“来刻画它的内在特性,⽐如说我们的⼈物,他有年龄、⾝⾼、体重属性。
2.知识图谱可以通过⼈为构建与定义,去描述各种概念之间的弱关系,例如:“忘了订单号”和“找回订单号”之间的关系
知识库的概念
知识库的种类
issacsouth korea gay tv知识库⽬前可以分为两种类型:Curated KBs 和 Extracted KBs
Curated KBs:以yago2和freeba为代表,他们从维基百科和WordNet等知识库抽取了⼤量的实体及实体关系,可以把它理解城⼀种结构化的维基百科。试用期自我评价范文
Extracted KBs:主要是以Open Information Extraction (Open IE), Never-Ending Language Learning (NELL)为代表,他们直接从上亿个⽹页中抽取实体关系三元组。与freeba相⽐,这样得到的实体知识更具有多样性,⽽它们的实体关系和实体更多的则是⾃然语⾔的形式,如“姚明出⽣于上海。” 可以被表⽰为(“Yao Ming”, “was also born in”, “Shanghai”)。直接从⽹页中抽取出来的知识,也会存在⼀定的噪声,其精确度低于Curated KBs。
Curated KBs,主要是因为Curated KBs⽐较简单,容易构建,噪⾳少。
⽬前⾏业内使⽤的⽐较多的还是Curated KBs
什么是知识库
a)“姚明出⽣于上海”
b)“姚明是篮球运动员”
c)“姚明是现任中国篮协主席”
以上就是⼀条条知识,把⼤量的知识汇聚起来就成为了知识库(Knowledge Ba)。我们可以从wikipedia,百度百科等百科全书获取到⼤量的知识。但是,这些百科全书的知识是由⾮结构化的⾃然语⾔组建⽽成的,这样的组织⽅式很适合⼈们阅读但并不适合计算机处理。
图1:知识图实例
知识库的表⽰形式
为了⽅便计算机的处理和理解,我们需要更加形式化、简洁化的⽅式去表⽰知识,那就是三元组(triple)。
在线中英翻译“姚明出⽣于中国上海” 可以⽤三元组表⽰为(Yao Ming, PlaceOfBirth, Shanghai)[1]。这⾥我们可以简单的把三元组理解为(实体entity,实体关系relation,实体entity)。如果我们把实体看作是结点,把实体关系(包括属性,类别等等)看作是⼀条边,那么包含了⼤量三元组的知识库就成为了⼀个庞⼤的知识图。
有些时候会将实体称为topic,如Justin Bieber。实体关系也可分为两种,⼀种是属性property,⼀种是关系relation。如下图所⽰,属性和关系的最⼤区别在于,属性所在的三元组对应的两个实体,常常是⼀个topic和⼀个字符串,如属性Type/Gender,对应的三元组(Justin Bieber, Type, Person),⽽关系所在的三元组所对应的两个实体,常常是两个topic。如关系PlaceOfBrith,对应的三元组(Justin Bieber, PlaceOfBrith, London)。
图2:Justin Bieber知识图
(图中蓝⾊⽅块表⽰topic,橙⾊椭圆包括属性值,它们都属于知识库的实体;蓝⾊直线表⽰关系,橙⾊直线表⽰属性,它们都统称为知识库的实体关系,都可以⽤三元组刻画实体和实体关系)
知识库的数据结构
fixit
这⾥只是简单介绍⼀下数据结构,知识表达这⼀块会在《知识图谱基础(⼆)-知识图谱的知识表达系统》中详细讲解。
读者只要记住,freeba的基础知识表达形式:(实体)-[关系]-(实体),(实体)-[关系]-(值)即可,参考图3,姚明和叶莉的关系。
图3 知识表达
知识图谱的应⽤
idiocracy通过知识图谱,不仅可以将互联⽹的信息表达成更接近⼈类认知世界的形式,⽽且提供了⼀种更好的组织、管理和利⽤海量信息的⽅式。下图是笔者整理的知识图谱有关的应⽤,接下来的⼀些⽂章笔者会对下⾯的应⽤进⾏剖析。
图4 知识图谱的应⽤
从图4上看,知识图谱的应⽤主要集中在搜索与推荐领域,robot(客服机器⼈,私⼈助理)是问答系统,本质上也是搜索与推荐的延伸。可能是因为知识图谱这项技术(特指freeba)诞⽣之初就是为了解决搜索问题的。知识存储这⼀块可能是企查查和启信宝这些企业发现使⽤图结构的数据⽐较好清洗加⼯。
衣架英文
在语义搜索这⼀块,知识图谱的搜索不同于常规的搜索,常规的搜索是根据keyword找到对应的⽹页集合,然后通过page rank等算法去给⽹页集合内的⽹页进⾏排名,然后展⽰给⽤户;基于知识图谱的
搜索是在已有的图谱知识库中遍历知识,然后将查询到的知识返回给⽤户,通常如果路径正确,查询出来的知识只有1个或⼏个,相当精准。
里克福克斯
问答系统这⼀块,系统同样会⾸先在知识图谱的帮助下对⽤户使⽤⾃然语⾔提出的问题进⾏语义分析和语法分析,进⽽将其转化成结构化形式的查询语句,然后在知识图谱中查询答案。proof是什么意思