知识图谱学习笔记《知识图谱概念与技术》肖仰华——第1章知识图谱概述
chestnut知识图谱概述
⽂章⽬录
1.1 知识图谱的基本概念
狭义: 特指⼀类知识表⽰,本质上是⼤规模语义⽹络
⼴义:⼤数据时代知识⼯程⼀系列技术的总称,在⼀定程度程度上指代⼤数据知识⼯程这⼀新兴学科。
1.1.1 知识图谱的狭义概念
1. 知识图谱作为语义⽹络的内涵
作为⼀种知识表⽰形式,知识图谱是⼀种⼤规模语义⽹络,包括实体(Entity)、概念(Concept)及其之间的各种语义关系。
知识图谱本质是语义⽹络:
语义⽹络是⼀种以图形化的(Graphic)形式通过点和边表⽰知识的⽅式,其基本组成元素是点和边。
webmoney点可以是实体(⼜称对象、实例)、概念(⼜称类别、类)和值(Value)。
边可以分为属性(Property)和关系(Relation)两类。当实体的某个属性值也是⼀个实体时,这个属性实质上就是关系。
语义⽹络中的边按照其两端节点的类型可以分为概念之间的⼦类(subclassof)关系、实体与概念之间的实例(instanceOf)关系,以及实体之间的各种属性与关系。
2. 知识图谱与传统语义⽹络的区别
根本区别:知识图谱规模⼤
(1)规模巨⼤。知识图谱点、边数量巨⼤原因在于需要覆盖实体,是⼤知识的代表。
(2)语义丰富。两⽅⾯:富含各类语义关系;语义关系建模多样。
(3)质量精良。⼤数据多源特性使得我们可以通过多个来源验证简单事实;众包平台有助于实现⼤规模知识验证。
(4)结构友好。知识图谱通常可以表⽰为三元组,通过图结构和RDF(Resource Description Framework)进⾏表⽰。
知识图谱构建与应⽤的独特挑战:
(1)⾼质量模式缺失。放宽要求,允许模式(Schema)定义不完善甚⾄缺失,对数据语义理解以及数据质量控制提出挑战。
(2)封闭世界假设(Clod World Assumption)不再成⽴。CWA假定数据库/知识库中不存在的事实为不成⽴的事实。
(3)⼤规模⾃动化知识获取成为前提。
要求翻译3. 知识图谱与本体的区别
本体源于哲学的本体论,侧重对存在进⾏规定和刻画。本体刻画⼈们认知⼀个领域的基本框架,⽽知识图谱富含的是实例以及关系实例。模式定义实际上在完成本体定义的任务。
1.1.2 知识图谱的⼴义概念
知识图谱是⼤数据时代知识⼯程(Big Data Knowledge Engineering, BigKE)的代表性进展。知识⼯程的核⼼内容是建设专家系统,旨在让机器能够利⽤专家知识以及推理能⼒解决实际问题。知识表⽰是发展知识⼯程最关键的问题之⼀,知识表⽰的⼀个重要⽅式是知识图谱,侧重⽤关联⽅式表达实体与概念之间的语义关系。
1.2 知识图谱的历史沿⾰
以知识图谱为代表的⼤数据知识⼯程的产⽣有历史必然性。
1.2.1 知识图谱溯源
1. 传统知识⼯程
知识⼯程属于符号主义。符号主义认为知识是智能的基础。传统⼈⼯智能专家认为⼈⼯智能的核⼼问题是知识表⽰、推理和应⽤。成功解决的问题普遍具有规则明确、应⽤封闭的特点,根本局限在于严重依赖⼈的⼲预(领域专家、知识⼯程师、⽤户反馈)。
2. 传统知识⼯程的局限性
传统知识⼯程难以适⽤开放性应⽤,实际应⽤不是绝对封闭,则容易超出预先设定的知识库边界。机器理解常识的⽔平有限。
(1)隐形知识与过程知识等难以表达。
(2)知识表达的主观性与不⼀致性。专家认知有差异、冲突是常态。⼈类认知存在模糊性,如物体归类。
(3)知识难以完备。
(4)知识更新困难。necropsy
1.2.2 ⼤数据知识⼯程
1. 互联⽹与⼤数据应⽤催⽣了知识图谱
应⽤特点:规模巨⼤(如搜索引擎);精度要求相对不⾼;知识推理简单
2. ⼤数据时代给知识图谱的发展带来了新机遇
humanrace(1)数据、算⼒和模型的飞速发展使得⼤规模⾃动化知识获取成为可能。
(2)众包技术使得知识的规模化验证成为可能。
(3)⾼质量的⽤户⽣成内容(UGC)提供了⾼质量知识库来源。包括百科、社区、论坛、问答平台。
1.3 知识图谱的研究意义
1.3.1 知识图谱的认知智能的基⽯
认知智能是指让机器具备⼈类认知世界的能⼒。机器认知智能的两个核⼼能⼒是“理解”、“解释”。理解是指从数据到知识图谱中的知识要素(包括实体、概念和关系)的映射。解释是将知识图谱中的知识与问题或者数据相关联。
(1)知识图谱使能机器语⾔认知。
实现机器对⾃然语⾔的理解所需要的背景知识的条件如下,知识图谱满⾜所有条件:
规模必须⾜够巨⼤才能理解不同的实体和概念
语义关系必须⾜够丰富才能理解不同的关系
结构必须⾜够友好才能为机器所处理
质量必须⾜够精良才能让机器对现实世界产⽣正确的理解
(2)知识图谱赋能可解释⼈⼯智能:可解释性的缺失问题。
⼈类倾向于利⽤概念、属性、关系这些认知的基本元素去解释现象和事实,可以通过知识图谱表达。英语四级身份证查询
(3)知识图谱有助于增强机器学习的能⼒。
让机器学习模型利⽤⼤量累积的符号知识,降低机器学习模型对⼤样本的依赖,提⾼学习的经济性,提⾼对先验知识的利⽤率。
1.3.2 知识引导成为解决问题的重要⽅式之⼀
实际应⽤越来越要求将数据驱动和知识引导相结合,以突破基于统计学习的纯数据驱动的效果瓶颈。
1.4 知识图谱的应⽤价值
1.4.1 数据分析
⼤数据的精准分析(舆情分析、互联⽹商业洞察、军事情报分析、商业情报分析)和精细分析(个性化制造、搜集评价与反馈)需要知识图谱。
1.4.2 智慧搜索
1. 精准的搜索意图理解
精准分类、语义理解、个性化推荐
2. 搜索对象复杂化、多元化
⽂本、图⽚、代码、声⾳、视频、⽂案、素材
3. 搜索粒度多元化bh什么意思
篇章级、段落级、语句级、词汇级
4. 跨媒体协同搜索
不同媒体数据联合完成搜索、多模态搜索
1.4.3 智能推荐
1. 场景化推荐。建⽴场景图谱,实现基于场景图谱的精准推荐。
2. 冷启动下的推荐。利⽤来⾃知识图谱的外部知识,特别是关于⽤户与物品的知识,增强⽤户与物品的描述,提升匹配精度,是让系统
尽快度过冷启动阶段的重要思路。
3. 跨领域推荐。
4. 知识型内容的推荐。
1.4.4 ⾃然⼈机交互
对话式交互、问答式交互。
1.4.5 决策⽀持
建⽴包含各种语义关联的知识图谱,挖掘实体之间的深层关系,成为决策分析的重要辅助⼿段。
1.5 知识图谱的分类
1.5.1 知识图谱中的知识分类
1. 事实知识。是关于某个特定实体的基本事实,最常见的知识类型。
2. 概念知识。分为两类,⼀类是实体与概念之间的类属关系(isA关系),⼀类是⼦概念与⽗概念之间的⼦类关系(subclassOf)。
3. 词汇知识。主要包括实体与词汇之间的关系以及词汇之间的关系,已取得较好应⽤效果。
4. 常识知识。常识是⼈类通过⾝体与世界交互⽽积累的经验与知识,使⼈们不⾔⾃明的知识。常识知识的获取是构建知识图谱的⼀⼤难
点。
1.5.2 知识图谱的领域特性
通⽤到领域/⾏业
DKG与GKG之间区别体现在知识表⽰、知识获取、知识应⽤三个层⾯:
1. 在知识表⽰层⾯的区别可以从⼴度、深度、粒度这三个维度来考察。
2. 在知识获取层⾯,DKG对质量要求更⾼。
3. 在知识应⽤层⾯,DKG的推理链条相对较长,应⽤相对复杂。
联系:
1. 领域知识是通过隐喻或者类⽐从通⽤知识发展⽽来。
2. GKG与DKG相互⽀撑。GKG给DKG提供⾼质量种⼦事实和领域模式。DKG反哺GKG。
1.5.3 典型知识图谱
常见知识图谱
知识图谱领
域
特点构建⽅式、规模语⾔类型
Cycorp公司的Cyc 通
⽤
通过⼈⼯⽅法将上百万条⼈类常识编码成机器可⽤的形
式,⽤于智能推断
⼈⼯,700万条断⾔,63万个概念,3.8
万条关系
英语常识图谱
普林斯顿⼤学的WordNet 通
⽤
以同义词集合作为⼀个基本单元
⼈⼯,15万个词,11万组同义词集
合,20万条关系
英语词汇图谱
⿇省理⼯学院的ConceptNet 通
⽤
多语⾔常识知识库⾃动,800万个实体,2100万条关系
多语
⾔
常识图谱
Meta Web公司的Freeba 通
⽤
众包编辑半⾃动,4400万个概念,24亿个事实英语百科图谱
Geonames的Geonames 领
域
多语⾔地理位置信息半⾃动,2500万个实体
多语
⾔
地理图谱
DBpedia 通
⽤
百科图谱多语⾔⾃动构建半⾃动,2800万个实体
多语
⾔
百科图谱
YAGO 通
⼈⼯校验,时空维度,多语⾔⾃动,1000万个实体,1.2亿条关系
多语
百科图谱
⽤⾔
华盛顿⼤学的OpenIE 通
⽤
开放性关系抽取,Never-ending⾃动,50亿条关系英语⽂本图谱
BabelNet 通
⽤
271种语⾔,⾃动融合⾃动,1400万个实体
多语
⾔
词汇图谱
WikiData 通
⽤
众包编辑半⾃动,540万个实体
多语
⾔
百科图谱
Google知识图谱通
⽤
onlylove规模最⼤⾃动,未知
多语
⾔
综合知识
图谱
opposite是什么意思
微软亚洲研究院的Proba 通
⽤
概念规模最⼤⾃动,270万个概念英语概念图谱
搜狗知⽴⽅通
⽤
侧重于娱乐领域⾃动,未知汉语百科图谱
百度知⼼通
⽤
i sing⽀持百度搜索⾃动,未知汉语百科图谱
复旦⼤学的CN-DBpedia 通
⽤
实时更新,完整的数据/服务接⼝⾃动,1600万个实体,2.2亿条关系汉语百科图谱
知识图谱领
域
特点构建⽅式、规模语⾔类型