知识图谱概述
1 什么是知识图谱?
1 智能类型: 计算智能(运算存储能⼒)、感知智能(⼈、动物通过感觉器官与⾃然界交互)、认知智能(⼈在感知世界以及⼈与⼈互动的过程中,形成对世界的理解)、决策职能;
2 知识:经验(experience)、解释(interpretation)、 背景(context)、思考(reflection)结合在⼀起的信息;
郭姓来源很多⼈多知识有不同的解释;
3 知识科学: 研究以知识为对象的基本问题,包括知识的数学理论、逻辑基础以及知识建模、知识获取、知识加⼯、知识运⽤的机理。
4 知识⼯程: 数据+信息 变为 知识;
数据: ⼈脑感知的最原始的记录(符号、⽂字、图像、⾳频等),未经加⼯的,与其他数据没有联系;
信息: 数据经过加⼯解释的;
知识:信息重复出现,事物的本质被揭⽰,信息化为知识;
5 知识库: 对知识进⾏⼿机整理,形成形式化表⽰,按⼀定⽅法存储,并提供查询⼿段;
知识图谱是知识库的⼀种形式。
6 知识⼯程依赖专家构建知识,在受限领域的专家系统中取得成功;
7 ⼤数据知识⼯程: ⼤数据时代,信息⽆法得到充分利⽤;
⼤部分是⾮结构化数据;标注数据很少;
⼤数据中蕴含丰富的知识,迫切需要对⼤数据进⾏知识化,让计算机更有效的管理和利⽤信息。
8 知识图谱起源
google知识图谱项⽬;
9 知识图谱:图的结构
结构化三元组形式存储现实世界中实体及其关系:,描述⼀个特定领域中的事实,由头实体、尾实体和描述这两个实体之间的关系组成;
实体集合;
关系集合;
三元组集合;
同儿辈赋未开海棠关系有时也称为属性;
实体是图结构中的节点,关系是链接两个节点的有向边;
10 知识图谱是⼤数据知识⼯程的⼀种⾼效模型;
结构化:图表⽰数据之间结构的表达形式;
关联化: 节点的关联和边的关联把多个来源的知识图谱⾃然关联起来;
规范化: 采⽤统⼀的知识描述框架-- 语义⽹框架,便于知识的分享和利⽤;
11 知识图谱以丰富的语义表⽰能⼒和灵活的结构构件了在计算机世界中表⽰认知世界和物理世界中信息和知识的有效载体。
2 知识⼯程发展历程
1 1950-1970 图灵测试
符号主义: 物理符号是智能⾏为的充要条件;
连结主义: ⼤脑是⼀切智能活动的基础;
通⽤问题求解程序: 问题形式化+ 搜索;尤克里里曲谱
知识表⽰: 数理逻辑、基于逻辑的知识表⽰、语义⽹络
1970-1990 专家系统
知识⼯程在⼈⼯智能的核⼼地位;
专家系统= 知识库+ 推理;
知识表⽰:框架、脚本、概念依存
正方形的判定定理连结主义: 神经⽹络复苏、BP算法;
1990-2000 万维⽹
⼈⼯⼤规模知识库: CYC、WordNet HowNet
画画教程知识表⽰: 本体
万维⽹: web 1.0 W3C 互联⽹内容标记语⾔,HTML,XML等
⾏为主义: ⼈⼯智能是表现出⼀定智能⾏为的主体
2000-2006 web 2.0 群体智能
互联⽹知识表⽰⽅法: 封闭 - 开放; 集中- 分布
语义⽹络:互联⽹内容的结构化表⽰,实现计算机理解和智能化服务;
互联⽹知识表⽰语⾔: RDF,OWL
群体智能知识⼯程
2006-⾄今 web 3.0 知识图谱
知识图谱从通⽤领域扩展到限定领域
在⼯业界⼤规模应⽤
语义搜索、问答机器⼈、智能知识服务
2 1977 年 提出⼈⼯智能概念
万维⽹: 采⽤超⽂本标记语⾔,web没有形式化的表⽰⽅式,缺乏明确的语义信息,⾯向⼈的存储和共享信息的媒介,计算机很难利⽤。
语义⽹: 是万维⽹的扩展和变⾰,基于知识本体,对web数据内容进⾏了规范化的语义标注和关联,从⽽⽀持⾼效的机器信息共享和智能应⽤;
本体模型、形式化⼿段表达数据语义
3 ⼈⼯智能: 知识数据化,让计算机表⽰、组织、存储⼈类的知识;
互联⽹: 数据的知识化--让数据⽀持推理等职能任务
4 ⼈⼯智能知识表⽰理论: 依据语义⽹的技术框架和⼯程规范,对⼤数据进⾏知识化的⼀个知识⼯程产品;
语义⽹资源描述框架: XML、RDF、RDF Schema、OWL
5 以维基百科尾核⼼的协同知识资源对于知识图谱的发展起到了决定性作⽤;
⼤规模通⽤领域知识图谱: freeba, DBpedia 都是维基百科的infebox数据为基础构建⽽成的;
真实应⽤需求;
3 知识图谱类型和代表性知识图谱
1 三元空间:
物理空间:现实世界
认知空间: 现实世界在⼈脑中的反映;
语⾔空间: ⼈们⽤语⾔表达认知空间。
2 实体: entity 客观存在并可相互区别的事物,可以是具体的也可以是抽象的;
关系: 不同的实体之间的各种联系,relation;
taxonomic relation
non-taxonomic relation(部分整体、attribute, posssion, casuality)
词语: ⽤于表⽰实体、关系这些认知单元的语⾔单位;
3 Ontology : 本体,⼀套对客观世界进⾏描述的共享概念化体系,重点是对数据的定义进⾏描述,⽽不是描述具体事物的实例数据;
Knowledge Ba: 知识库,服从于ontology控制的知识实⼒及其载体
databa: 数据库,计算机科学家为了⽤电脑表⽰和存储计算机应⽤所需要的数据所设计开发的产品;
4 Formal Ontology: ⼤量使⽤公理;
LightWeight Ontology: 较少使⽤公理。
5 Ontology:本体,共享概念的规范。Ontology通常涵盖概念之间的分类体系,但是除此之外,更重要的是它还有概念之间的相关关系,如反向、传递、对称等,以及在此基础上建⽴的推理规则,从⽽⽀持复杂推理。由于具有严格的规范,⼀般⽤户难以构建。
Taxonomy:分类法,或称分类体系,是由专家编制的专业层次类别体系,如中图分类体系等。也有⼀些不严格的分类体系,通常由⼀些组织为了⾃⾝需要⽽编制,如Yahoo分类⽬录等。
Folksonomy:社会分类法,是由⽤户的⾃由标签⾃动形成的⼀种分类法,在对同⼀事物进⾏标签的所有标签中,取出⾼频标签作为分类标签。严格讲,是⼀种标签⽅法,并不⼀定构成⼀个分类体系。另⼀⽅⾯,标签具有随意性(歧义性)。
6 知识类型: 语⾔知识(缩写,同义词等)、百科知识(⼈物、机构、地点)、 场景知识(特定场景下要完成某项任务要具备的知识)、领域知识(法律知识、⾦融知识等)、常识知识凡桃俗李
天长地久周启生7 知识图谱类型:
语⾔知识图谱:wordnet
常识知识图谱: Cyc,Hownet, ConceptNet;
语⾔+ 百科知识图谱: Yago, Babelnet
百科知识图谱: DBpedia, freeba, Google KG,Wikidata
领域知识图谱: 医学SIDER,电影IMDB,⾳乐MusixBrainz
8 代表性知识图谱介绍
1 wordNet:
普林斯顿⼤学建⽴的英⽂词汇语义知识库;
理论基础:语义场理论(上下义义场、整体与部分、同义、反义)
⼈⼯标注,英⽂单词按照语义组成⼤的概念⽹络;
146350个单词,111223个同义词集
住院总2 FrameNet
1997年开始,Berkeley 构建的词汇语义知识库
理论基础: 语义学理论
认为⼤部分的语义能够通过语义框架(对词语涵盖的概念知识预设)形式表
具有层级的组织结构
3 知⽹—— HowNet
不是将所有概念归结到⼀个树状的概念层次体系中,⽽是试图⽤⼀系列义原对每⼀个概念进⾏描述,义原之间通过义原关系进⾏关联。
功能,受事
4 参考⽂献: 国科⼤-知识图谱课件