知识图谱研究综述
清华⼤学李涓⼦教授“研究综述”⼀⽂的阅读笔记。
内容:小班保护眼睛教案
姚浩1. 概念
2. 现有的知识图谱资源
3. 知识表⽰
4. 知识图谱构建
5. 应⽤
知识图谱旨在描述客观世界的概念、实体、事件及其间的关系。
概念是指⼈们认识世界过程中形成的对客观事物的概念化,如⼈、动物、组织机构等;
实体是客观世界中的具体事物,如篮球运动员姚明、互联⽹公司腾讯等;
事件是客观世界的活动,如地震、买卖⾏为等;
关系描述概念、实体事件之间客观存在的关联,如毕业学院描述了个⼈及其所在院校的关系,运动员和篮球运动员之间的概念和⼦概念的关系等。
知识图谱是将互联⽹的信息表达成更接近⼈类认知世界的形式,提供了⼀种更好地组织、管理和理解互联⽹海量信息的能⼒。
涉及的技术:认知计算、知识表⽰和推理、信息检索与抽取、⾃然语⾔处理和语义web、数据挖掘与机器学习等> 知识图谱技术具体地包括知识表⽰、知识图谱构建和知识图谱的应⽤三⽅⾯:
1. 知识表⽰研究客观世界知识的建模,从知识的表⽰和存储,以及知识的使⽤和计算来使得知识便于机器的识别和理解;
2. 知识图谱的构建解决如何建⽴计算机算法从客观世界或者或联⽹的各种数据资源中获取客观世界的知识,主要研究使⽤何种数据和⽅法抽取何种知
识;过程的近义词
3. 知识图谱应⽤主要研究如何利⽤知识图谱建⽴基于知识的智能服务系统,更好地解决实际应⽤问题。
现有知识图谱资源
⼈⼯构建
WordNet、Cyc项⽬、中⽂HowNet
群体智慧构建
维基百科
东亚运动会
DBpedia 以构建本体的形式对知识条⽬进⾏组织
YAGO 融合WordNet良好的概念层次结构和维基百科中的⼤量实体数据
Freeba 包含6800万实体的结构化数据的知识图谱
国内清华⼤学和上海交通⼤学利⽤互动百科、百度百科建⽴了⼤规模知识图谱和
基于机器学习和信息抽取构建的知识图谱:从互联⽹数据⾃动获取知识是建⽴可持续发展知识图谱的发展趋势。这类知识图谱构建的特点是⾯向互联⽹的⼤规模、开放、异构环境,利⽤机器学习和信息抽取技术⾃动获取Web上的信息构建知识库。
知识表⽰
1. 基于符号逻辑的表⽰
巴顿将军简介
与⼈类的⾃然语⾔⽐较接近,是最早使⽤的⼀种知识表⽰⽅法。
但是机器⽣成推理规则的能⼒很弱,这种⽅式往往需要⼤量的⼈⼒、⽽且对数据的质量要求很⾼,故在⼤数据时代这种⽅式已经不能很好地解决知识表⽰的问题。
2. 万维⽹内容的知识表⽰
互联⽹信息的描述主要包括
基于标签的半结构化标记语⾔XML
基于万维⽹资源语义元数据描述框架RDF
基于描述逻辑的本体描述语⾔OWL
XML通过内容标记,便于数据交换;RDF通过三元组(主体,谓词,客体)描述互联⽹资源之间的语义关系;OWL构建在RDF之上,具有更强的表达及解释能⼒的语⾔。
3. 表⽰学习
⽬标:通过机器学习或深度学习,将研究对象的语义信息表⽰为稠密低维的实值向量。对不同粒度的
知识单元进⾏隐式的向量化表⽰,来⽀持⼤数据环境下知识的快速计算。
主要⽅法:
张量重构
卡通素描图片
煮面条势能函数
结合其他的优化⽅法,以达到提升计算效率、缓解数据稀疏性的⽬的,更容易实现多源的异质信息的融合
构建技术
知识的来源:
互联⽹上分布、异构的海量资源
1.概念层次学习
2. 事实学习等
已有的结构化异构语义资源关于阅读的名言
异构资源的语义集成
1. 概念层次学习
对客观世界中的事物在不同层次上的概念化描述
通过合理的技术,抽取知识表⽰中的概念,确定其上下位关系(如⽔果与苹果、梨)
概念层次学习多采⽤启发式规则的⽅法,基本思路是根据上下位概念的陈述模式,从⼤量的资源中找出可能具有上下位关系的概念对(或概念
组),从⽽对上下位关系进⾏归纳;
另⼀种是基于统计的⽅法,假设相同概念出现的上下⽂也相似,利⽤词语或实体分布的相似性,计算特征学习的概率模型来得到概念结构
2. 事实学习
以三元组的形式表⽰事实(梨,是,⽔果),事实数量决定了知识图谱的丰富程度,构建知识图谱时采⽤的机器学习⽅法可以分为:有监督、半监督、⽆监督三类。
有监督的学习
需要有⾃⼰标记⽂档作为训练集,分为基于规则的学习、基于分类标注和基于序列标注⽅法等
基于规则的学习:语义标注⽅法是从带语义标注的预料中⾃动学习标注规则,再利⽤规则对数据资源进⾏语义标注,适合⽐较规范资源上的知识获取
基于分类的知识获取⽅法将知识获取转化为分类问题,根据确定的标注特征从标注语料中学习标注模型
基于序列模式标注的⽅法同时考虑多个语义标注之间的关系,可以提⾼标注的准确率。
半监督的学习
⾃扩展
需要初始的种⼦实体对,种⼦实体对——>新的语义模板,再对语料进⾏迭代抽取来发现新的实体对,主要问题是语义漂移
弱监督
由知识库中的关系启发式标注⽂本,主要问题在于训练实体中本⾝带有⼤量噪⾳
⽆监督的学习
知识获取的⽅法主要是信息抽取,使⽤⾃然语⾔处理⽅法,⽆需预先给定要抽取的关系,能⾃动地将⾃然语⾔句⼦转换为命题,缺点在于处理复杂句⼦时效果会受到影响
代表性系统:KnowItAll,该系统可以从互联⽹信息中抽取语义信息(⾃扩展⽅式),同时也能⾃动地对抽取地信息进⾏评估
3. 语义集成
在异构知识库之间,发现实体间的等价关系,从⽽实现知识共享。
因为现有的知识库多以本体的形式描述,所以语义集中的主要环节就是本体映射:
基于⽂本的⽅法
利⽤实体中的标签或摘要等⽂本信息,计算两个实体字符串之间的相似度来确定实体间是否有匹配关系
基于结构的⽅法
利⽤实体的图结构信息对本体进⾏匹配,利⽤本体的图结构,对实体间的相似度进⾏传播,从⽽提⾼对齐的效果
基于背景知识的⽅法
基于已有的⼤规模领域⽆关知识库作为背景知识来提⾼匹配结果
基于机器学习的⽅法
将本体匹配问题视为机器学习中的分类或优化问题,从⽽采取机器学习⽅法获得匹配结果
应⽤
语义搜索
知识问答
基于知识的⼤数据分析与决策等