前言
1.知识图谱的研究目标与意义
知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。
知识图谱技术是指知识图谱建立和应用的技术,是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等方向的交叉研究。知识图谱于2012年由谷歌提出并成功应用于搜索引擎,知识图谱属于人工智能重要研究领域——知识工程的研究范畴,是利用知识工程建立大规模知识资源的一个杀手锏应用。94年图灵奖获得者、知识工程的建立者费根鲍姆给出的知识工程定义——将知识集成到计算机系统从而完成只有特定领域专家才能完成的复杂任务。在大数据时代,知识工程是从大数据中自动或半自动获取知识,建立基于知识的系统,以提供互联网智能知识服务。大数据对智能服务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。我们需要利用知识工程为大数据添加语义/知识,使数据产生智慧(smart data),完成从数据到信息到知26个字母大小写
识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答案、为决策提供支持、改进用户体验等目标。知识图谱在下面应用中已经凸显出越来越重要的应用价值:
qq名字英语-知识融合:当前互联网大数据具有分布异构的特点,通过知识图谱可以对这些数据资源进行语义标注和链接,建立以知识为中心的资源语义集
成服务;
-语义搜索和推荐:知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观世界的概念和实体,搜索结果直接显示出满足用户需求的结
构化信息内容,而不是互联网网页;
-问答和对话系统:基于知识的问答系统将知识图谱看成一个大规模知识库,通过理解将用户的问题转化为对知识图谱的查询,直接得到用户关
心问题的答案;
-大数据分析与决策:知识图谱通过语义链接可以帮助理解大数据,获得对大数据的洞察,提供决策支持。
2.知识工程的发展历程
知识图谱的发展是人工智能重要分支知识工程在大数据环境中的成功应用。回顾知识工程四十年来发展历程,总结知识工程的演进过程和技术进展,体会知识工程为人工智能所做出的贡献和未来面临的挑战,可以将知识工程分成五个标志性的阶段,前知识工程时期、专家系统时期、万维网1.0时期,群体智能时期以及知识图谱时期。
图1. 知识工程发展历程
1950-1970时期:图灵测试
人工智能旨在让机器能够像人一样解决复杂问题,图灵测试是评测智能的是手段。这一阶段主要有两个方法:符号主义和连结主义。符号主义认为物理符号系统是智能行为的充要条件,连结主义则认为
大脑(神经元及其连接机制)是一切智能活动的基础。这一阶段具有代表性的工作是通用问题求解程序(GPS):将问题进行形式化表达,通过搜索,从问题初始状态,结合规则或表示得到目标状态。其中最成功应用是博弈论和机器定理证明等。这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。这一时代人工智能和知识工程的先驱Minsky,Mccarthy 和Newell以Simon四位学者因为他们在感知机、人工智能语言和通用问题求解和形式化语言方面的杰出工作分别获得了1969年、1971年、1975年的图灵奖。
handy man1970-1990时期:专家系统
通用问题求解强调利用人的求解问题的能力建立智能系统,而忽略了知识对智能的支持,使人工智能难以在实际应用中发挥作用。70年开始,人工智能开始转向建立基于知识的系统,通过知识库+推理机实现智能,这一时期涌现出很多成功的限定领域专家系统,如MYCIN医疗诊断专家系统、识别分子结构的DENRAL专家系统以及计算机故障诊断XCON专家系统等。94年图灵奖获得者Feigenbaum教授在70年代提出知识工程的定义,确立了知识工程在人工智能中的核心地位。这一时期知识表示方法有新的演进,包括框架和脚本等。80年代后
期出现很多专家系统的开发平台,可以帮助将专家的领域知识转变成计算机可以处理的知识。
1990-2000时期:万维网Web 1.0
结果英文
在1990年代到2000年,出现了很多人工构建大规模知识库,包括广泛应用的英文WordNet,采用一阶谓词逻辑知识表示的Cyc常识知识库,以及中文的Hownet。Web1.0万维网的产生为人们提供了一个开放平台,使用HTML定义文本的内容,通过超链接把文本连接起来,使得大众可以共享信息。W3C提出的可扩展标记语言XML,实现对互联网文档内容的结构通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。这一时期还提出了本体的知识表示方法。url7 me
2000-2006时期:群体智能Web 2.0
appeared
Web1.0万维网的出现使得知识从封闭知识走向开放知识,从集中知识成为分布知识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关联来产生更多的知识而非完全由固定人生产。这个过程中出现了群体智能,最典型的代表就是维基百科,实际上是用户去建立知识,体现了互联网大众用户对知识的贡献,成为今天大规模结构化知识图谱的重要基础。也是在2001年,万维网发明人、2016年图灵奖获得者Tim Berners-Lee提出语义Web 的概念,旨在对互联网内容进行结构化语义表示,并提出互联网上语义标识语言RDF(资源描述框架)和OWL(万维网本体表述语言),利用本体描述互联网内容的语义结构,通过对网页进行语义标识得到网页语义信息,从而获得网页内容的语义信息,使人和机器能够更好地协同工作。
2006年至今:知识图谱
“知识就是力量”,将万维网内容转化为能够为智能应用提供动力的机器可理解和计算的知识是这一时期的目标。从2006年开始,大规模维基百科类富结构知识资源的出现和网络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。与Cyc、WordNet和HowNet等手工研制的知识库和本体的开创性项目不同,这一时期知识获取是自动化的,并且在网络规模下运行。当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和数据集成的强大资产,在大型行业和领域中正在得到广泛使用。典型的例子是谷歌收购Freeba后在2012年推出的知识图谱(Knowledge Graph),Facebook的图谱搜索,Microsoft Satori以及商业、金融、生命科学等领域特定的知识库。六级考试时间分配表
最具代表性大规模网络知识获取的工作包括DBpedia,Freeba,KnowItAll,WikiTaxonomy和YAGO,以及BabelNet,ConceptNet,DeepDive,NELL,Proba,Wikidata,XLore, 等。这些知识图谱遵循RDF数据模型,包含数以千
万级或者亿级规模的实体,以及数十亿或百亿事实(即属性值和与其他实体的关系),并且这些实体被组织在成千上万的由语义类体现的客观世界的概念结构中。
现在我们看知识图谱的发展和应用状况,除了通用的大规模知识图谱,各行业也在建立行业和领域的知识图谱,当前知识图谱的应用包括语义搜索、问答系统与聊天、大数据语义分析以及智能知识服务等,在智能客服、商业智能等真实场景体现出广泛的应用价值,而更多知识图谱的创新应用还有待开发。英文动画片大全
3.知识图谱技术
conflicting
人们通过概念掌握对客观世界的理解,概念是对客观世界事物的抽象,是将人们对世界认知联系在一起的纽带。知识图谱以结构化的形式描述客观世界中概念、实体及其关系。实体是客观世界中的事物,概念是对具有相同属性的事物的概括和抽象。本体是知识图谱的知识表示基础,可以形式化表示为,O={C,H,P,A,I},C为概念集合,如事物性概念和事件类概念,H是概念的上下位关系集合,也称为Taxonomy知识,P是属性集合,描述概念所具有的特征,A是规则集合,描述领域规则,I是实例集合,用来描述实例-属性-值。Google 于2012年提出知识图谱,并在语义搜索中取得成功应用。知识图谱可以看做是本体知识表示的一个大规模应用,Google知识图谱的知识表示结构主要描述客观存在实体和实体的关系,对于每个概念都有确定的描述这个概念的属性集合。
知识图谱技术是知识图谱建立和应用的技术,是语义Web、自然语言处理和机器学习等的交叉学科。我们将知识图谱技术分为三个部分:知识图谱构建技术、知识图谱查询和推理技术,以及知识图谱应用。在大数据环境下,从互联网开放环境的大数据中获得知识,用这些知识提供智能服务互联网/行业,同时通过互联网可以获得更多的知识。这是一个迭代的相互增强过程,可以实现从互联网信息服务到智能知识服务的跃迁。
3.1 知识图谱构建
压强与浮力知识表示与建模
知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。从有人工智能的历史开始,就有了知识表示的研究。知识图谱的知识表示以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,为理解互联网内容提供了基础支撑。
知识表示学习
随着以深度学习为代表的表示学习的发展,面向知识图谱中实体和关系的表示学习也取得了重要的进展。知识表示学习将实体和关系表示为稠密的低维向量,