知识图谱(KnowledgeGraph)

更新时间:2023-06-24 08:33:15 阅读: 评论:0

知识图谱(KnowledgeGraph)
adventure
认识知识图谱
随着W3C在2007年发起的开放互联⽹数据项⽬(Linked Open Data)的⽕热,互联⽹上的数据正从杂乱的⽹页⽂本数据转变为包含⼤量描述实体之间丰富关系的数据万维⽹。在这个背景下,Google于2012年5⽉率先提出了知识图谱的概念,⽬的是将⽤户搜索的结果进⾏知识系统化,让每⼀个关键字都拥有⼀个完整的知识体系,从⽽真正意义上实现基于内容的检索,提⾼搜索质量。如下图,将知识图谱引⼊搜索引擎,⽤户除了得到搜索⽹页链接之外,还将看到与输⼊关键词有关的更加智能化的答案。国内互联⽹巨头如百度、搜狗等,也纷纷宣布了各⾃的“知识图谱”产品,如百度的“知⼼”、搜狗的“知⽴⽅”等。与基于关键词搜索的传统搜索引擎相⽐,知识图谱可以更好滴查询复杂的关联信息,从语义层⾯理解⽤户意图,改进搜索质量。因此,知识图谱也可以说是下⼀代智能搜索引擎的核⼼。
compounded
百度、⾕歌搜索引擎的知识图谱
知识图谱的表⽰
知识图谱中的数据来源可以是结构化数据、半结构化数据和⾮结构化数据。前两者多以维基百科、百
度百科为代表的⼤规模知识库,这些知识库中包含了⼤量半结构化、结构化知识,可以⾼效滴转化到知识图谱中。⽽⾮结构化数据多是⽹页⽂本数据,经过实体识别和实体关系抽取后,存放在关系型数据库中。知识图谱中的数据存储可以是RDF三元组(实体1、关系、实体2)的形式、也可以借助Neo4j图数据库以可视化图的⽅式展⽰。因此,知识图谱本质上是语义⽹络,是基于有向图的数据结构,在图中有节点(Nodes)和关系(Relationships),节点代表实体或概念,关系可以将节点连接起来,节点和关系都可以有对应的属性。
Neo4j图数据结构
白雪公主之魔镜魔镜下载Neo4j建⽴的知识图谱
注:RDF和Neo4j本质上是⼀种数据模型,⽤于存放结构化数据,RDF数据是元数据,即描述数据的数据,⽬的是让计算机可读⽽⾮向⽤户展⽰。RDF三元组可借助Neo4j转变为图数据,RDF数据的查询语⾔为SPARQL,Neo4j图数据的查询语⾔为Cyper。
知识图谱构建涉及的主要技术
1、实体链指(Entity Linking)
英语二级考试互联⽹⽹页数据涉及⼤量实体,⽽⼤部分⽹页本⾝并未对这些实体作相关说明和背景介绍,为了帮助⼈们更好的理解⽹页内容,让⽹页出现的实体链接到相应的知识库词条上,为读者提供更详细的背景材料,这种将互联⽹⽹页和实体间建⽴链接关系的做法称为实体链指。
实体链指包含实体识别(Entity Recognition)和实体消歧(Entity Disambiguation),其中,实体消歧也有叫知识融合、实体对齐等。
实体识别旨在从⽂本中发现命名实体,如⼈名、地名和机构名等。知识图谱中不仅涉及实体,还有⼤量概念(Concept),因此,实体识别也包含概念的识别。
不同环境下的同⼀个实体名称可能对应多个实体,如“苹果”可以是某种⽔果,也可以是某IT公司,也可能是⼀部电影。这种⼀词多义或者歧义问题普遍存在⾃然语⾔⽂本中,将⽂档中出现的名字链接到特定实体上,这就是⼀个消歧的过程。实体消歧的基本思想是:考虑名字出现的上下⽂信息,分析不同实体可能出现在该处的概率。如⽂本中出现iPhone,那么“苹果”这个名字有更⾼的概率指向知识图谱中叫做“苹果”的IT公司。
实体消歧
非诚勿扰2 见与不见2、关系抽取(Relation Extraction)
关系抽取(信息抽取)指从⽂本中抽取实体之间的关系。
典型的信息抽取⽅法采⽤bootstrapping思想,即按照“模板⽣成实例抽取”流程不断迭代直到收敛。如,“X是Y的⾸都”模板抽取(中国,⾸都,北京)三元组实例。
基于能够表达语义关系的词语(⼀般是以动词为核⼼的短语)来抽取实体关系,如,(华为,总部位于,深圳)、(华为,总部设置于,深圳)。
除上述⽅法外,还可以将关系抽取看做分类,即把关系抽取转换为对实体对的关系分类问题。将知识图谱三元组中每个实体对看成待分类样例,实体对关系看成分类标签。通过从出现该实体对的所有句⼦中抽取特征,利⽤机器学习分类模型构建信息抽取系统。
3、知识推理(Knowledge Reasoning)
推理能⼒是⼈类⼤脑智能的重要特征,即从已有知识中发现隐含知识。推理往往需要相关规则的⽀持,如从“配偶”+“男性”推理
出“丈夫”。这些规则可以⼿⼯构建,但费时费⼒,⼈们也难以穷举所有的推理规则。⽬前主要利⽤关系之间的同现情况,利⽤关联挖掘技术⾃动发现推理规则。实体对之间存在丰富的同现信息,如(康熙,⽗亲,雍正)、(雍正,⽗亲,乾隆)、(康熙,祖⽗,乾隆)三个实例,根据⼤量类似的实体X、Y、Z之间出现的(X,⽗亲,Y)、(Y,⽗亲,Z)、(X,祖⽗,Z)实例,可以统计出“⽗亲+⽗亲祖⽗”的推理规则。
实体样例
4、知识表⽰(Knowledge Repreentation)
wool是什么意思在计算机中如何对知识图谱进⾏表⽰和存储,是知识图谱构建与应⽤的重要课题。正如前⾯所讲,知识图谱本质上是⼀张⼤规模的语义⽹,是基于有向图的数据结构,图中节点带有实体标签,边带有关系标签。如下是⼀个电影领域知识图谱。
电影知识图谱⽰范
知识图谱是⼀种特殊的知识库,以往,信息检索⼿段更多的从“实体”⾓度出发,如今知识图谱使计算机能够从“关系”的⾓度分析、思考问题。知识图谱的应⽤让计算机获得⼀定的推理能⼒,使搜索引擎变得更加智能。
国内外开放的知识图谱扩散性
随着知识图谱概念的兴起,国内外许多搜索引擎公司和科研机构发布和维护了各类⼤规模知识库,如⾕歌收购的Freeba、德国莱⽐锡⼤学等机构发起的项⽬DBpedia、德国马普研究所开发的链接数据库YAGO,普林斯顿⼤学开发的语义词典wordnet等,国内的如中⽂知识图谱社区OpenKG等。
国内外开放领域知识图谱
知识图谱和本体的关系
知识图谱在本体的基础上进⾏了丰富和扩充,扩充主要体现在实体(Entity)层⾯。本体中强调的是领域内概念以及概念之间的关联关系,它是⼀个捕获领域知识的通⽤概念模型。⽽知识图谱则时在本体的基础上,增加了丰富的实体信息。
知识图谱与本体关系(图⽚引⾃)
英文日期格式
本体给知识图谱提供了“⾻架”,实体填充了知识图谱。本体侧重概念层次上的表⽰,⽽知识图谱是以实体为核⼼,事实⽤实体之间的关系表⽰,注重实体之间的关系推理。
知识图谱的应⽤
1、查询理解
搜索引擎中,传统的关键词匹配技术没有理解查询词背后的语义信息,查询效果不佳。知识图谱将搜索引擎从字符串匹配推进到实体层⾯,利⽤知识图谱可以识别查询词中的实体及其属性,搜索引擎不仅能够更好地理解⽤户查询意图,还可以获得⼀定的推理能⼒,为⽤户提供更加智能、精准的信息。
2、⾃动问答
scientist是什么意思
问答系统是知识检索更⾼级别的形式,⽀持⽤户以⾃然语⾔⽅式输⼊问句,返回的也是关于问句的⼀段⽂本。知识图谱可以作为问答系统的知识库,经过⽤户输⼊问句的语义解析、语义表⽰,以及最后进⾏语义匹配查询得到推理的过程,最终实现问什么答什么的智能问答系统。采⽤知识图谱这种数据管理⼿段,可以弥补机器对语⾔认知和概念认知的巨⼤障碍,让问答系统变得更加智能,提升问答系统的查全查准率。
>revi

本文发布于:2023-06-24 08:33:15,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/1027473.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:知识   实体   图谱   关系   数据   抽取   语义   推理
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图