把知识变成图谱一共需要花几步?89页全网最全清华知识图谱报告:花图谱
智东西(公众号:zhidxcom)文 | 智东西内参
知识图谱(Knowledge Graph)是人工智能的重要分支技术,它在2012年由谷歌提出,成为建立大规模知识的杀手锏应用,在搜索、自然语言处理、智能助手、电子商务等领域发挥着重要作用。
知识图谱与大数据、深度学习,这三大“秘密武器”已经成为推动互联网和人工智能发展的核心驱动力之一。
本期的智能内参,我们推荐来自清华大学人工智能研究院、北京智源人工智能研究院、清华-工程院知识智能联合研究中心联合推出的人工智能知识图谱报告,详细解读了知识图谱的这一人工智能技术分支的概念、技术、应用、与发展趋势。如果想收藏本文的报告(清华AMiner-人工智能之知识图谱),可以前往AMiner官网aminer/rearch_report/5c3d5a8709e961951592a49d?download=true获取下载。
以下为智能内参整理呈现的干货:
知识图谱的概念与分类
知识图谱(Knowledge Graph)于2012年由谷歌提出并成功应用于搜索引擎当中。它以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
知识图谱的分类方式很多,例如可以通过知识种类、构建方法等划分。从领域上来说,知识图谱通常分为两种:通用知识图谱、特定领域知识图谱。
朴珺▲知识图谱示意图
常见的知识图谱示意图主要包含有三种节点:实体、概念、属性。
实体指的是具有可区别性且独立存在的某种事物。如某一个人、某一座城市、某一种植物、某一件商品等等。世界万物由具体事物组成,此指实体。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。
概念指的是具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。
属性则用于区分概念的特征,不同概念具有不同的属性。不同的属性值类型对应于不同类型属性的边。如果属性值对应的是概念或实体,则属性描述两个实体之间的关系,称为对象属性;如果属性值是具体的数值,则称为数据属性。
知识图谱的三大典型应用
现在以商业搜索引擎公司为首的互联网巨头已经意识到知识图谱的战略意义,纷纷投入重兵布局知识图谱,并对搜索引擎形态日益产生重要的影响。如何根据业务需求设计实现知识图谱应用,并基于数据特点进行优化调整,是知识图谱应用的关键研究内容。咳嗽吃什么药效果好
知识图谱的典型应用包括语义搜索、智能问答以及可视化决策支持三种。
1、语义搜索
当前基于关键词的搜索技术在知识图谱的知识支持下可以上升到基于实体和关系的检索,称之为语义搜索。
语义搜索可以利用知识图谱可以准确地捕捉用户搜索意图,进而基于知识图谱中的知识解
决传统搜索中遇到的关键字语义多样性及语义消歧的难题,通过实体链接实现知识与文档的混合检索。
语义检索需要考虑如何解决自然语言输入带来的表达多样性问题,同时需要解决语言中实体的歧义性问题。同时借助于知识图谱,语义检索需要直接给出满足用户搜索意图的答案,而不是包含关键词的相关网页的链接。
2、智能问答
问答系统(Question Answering,QA)是信息服务的一种高级形式,能够让计算机自动回答用户所提出的问题。不同于现有的搜索引擎,问答系统返回用户的不再是基于关键词匹配的相关文档排序,而是精准的自然语言形式的答案。
智能问答系统被看作是未来信息服务的颠覆性技术之一,亦被认为是机器具备语言理解能力的主要验证手段之一。
智能问答需要针对用户输入的自然语言进行理解,从知识图谱中或目标数据中给出用户问题的答案,其关键技术及难点包括准确的语义解析、正确理解用户的真实意图、以及对返
回答案的评分评定以确定优先级顺序。
3、可视化决策支持
可视化决策支持是指通过提供统一的图形接口,结合可视化、推理、检索等,为用户提供信息获取的入口。例如,决策支持可以通过图谱可视化技术对创投图谱中的初创公司发展情况、投资机构投资偏好等信息进行解读,通过节点探索、路径发现、关联探寻等可视化分析技术展示公司的全方位信息。
可视化决策支持需要考虑的关键问题包括通过可视化方式辅助用户快速发现业务模式、提升可视化组件的交互友好程度、以及大规模图环境下底层算法的效率等。
通用知识图谱与特定领域知识图谱
1、通用知识图谱
通用知识图谱可以形象地看成一个面向通用领域的“结构化的百科知识库”,其中包含了大量的现实世界中的常识性知识,覆盖面极广。由于现实世界的知识丰富多样且极其庞杂,
通用知识图谱主要强调知识的广度,通常运用百科数据进行自底向上(Top-Down)的方法进行构建,下图展示的即是常识知识库型知识图谱。
国外的DBpedia使用固定的模式从维基百科中抽取信息实体,当前拥有127种语言的超过两千八百万实体以及数亿RDF三元组;YAGO则整合维基百科与WordNet的大规模本体,拥有10种语言约459万个实体,2400万个事实。
国内的从开放的百科数据中抽取结构化数据,当前已融合了包括百度百科、互动百科、中文维基三大百科的数据,拥有1000万个实体数据、一亿两千万个RDF三元组。
2、领域知识图谱应用
领域知识图谱常常用来辅助各种复杂的分析应用或决策支持,在多个领域均有应用,不同领域的构建方案与应用形式则有所不同。
以电商为例,电商知识图谱以商品为核心,以人、货、场为主要框架。目前共涉及9大类一级本体和27大类二级本体。
指甲上的白色月牙代表什么一级本体分别为:人、货、场、百科知识、行业竞对、品质、类目、资质和舆情。人、货、场构成了商品信息流通的闭环,其他本体主要给予商品更丰富的信息描述。
上图描述了商品知识图谱的数据模型,数据来源包含国内-国外数据,商业-国家数据,线上-线下等多源数据。目前有百亿级的节点和百亿级的关系边。
电商知识图谱,这个商品“大脑”的一个应用场景就是导购。而所谓导购,就是让消费者更容易找到他想要的东西,比如说买家输入“我需要一件漂亮的真丝丝巾”,“商品大脑”会通过语法词法分析来提取语义要点“一”、“漂亮”、“真丝”、“丝巾”这些关键词,从而帮买家搜索到合适的商品。
在导购中为让发现更简单,“商品大脑”还学习了大量的行业规范与国家标准,比如说全棉、低糖、低嘌呤等。
此外,它还有与时俱进的优点。“商品大脑”可以从公共媒体、专业社区的信息中识别出近期热词,跟踪热点词的变化,由运营确认是否成为热点词,这也是为什么买家在输入斩男色、禁忌之吻、流苏风等热词后,出现了自己想要的商品。
最后,智能的“商品大脑”还能通过实时学习构建出场景。比如输入“海边玩买什么”,结果就会出现泳衣、游泳圈、防晒霜、沙滩裙等商品。
知识工程的五个发展阶段
垂钓
知识图谱技术属于知识工程的一部分。1994年,图灵奖获得者、知识工程的建立者费根鲍姆给出了知识工程定义——将知识集成到计算机系统,从而完成只有特定领域专家才能完成的复杂任务。
回顾知识工程这四十多年来的发展历程,我们可以将知识工程分成五个标志性的阶段:前知识工程时期、专家系统时期、万维网1.0时期、群体智能时期、以及知识图谱时期,如下图所示。
1)1950-1970时期:图灵测试—知识工程诞生前期
这一阶段主要有两个方法:符号主义和连结主义。符号主义认为物理符号系统是智能行为的充要条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。第一次世界大战的原因
这一时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。
2)1970-1990时期:专家系统—知识工程蓬勃发展期
由于通用问题求解强调利用人的求解问题的能力建立智能系统,但是忽略了知识对智能的支持,使人工智能难以在实际应用中发挥作用。从70年开始,人工智能开始转向建立基于知识的系统,通过“知识库+推理机”实现机器智能。
这一时期知识表示方法有新的演进,包括框架和脚本等80年代后期出现了很多专家系统的开发平台,可以帮助将专家的领域知识转变成计算机可以处理的知识。
3)1990-2000时期:万维网1.0
在1990年到2000年期间,出现了很多人工构建大规模知识库,包括广泛应用的英文WordNet,采用一阶谓词逻辑知识表示的Cyc常识知识库,以及中文的HowNet。
Web 1.0万维网的产生为人们提供了一个开放平台,使用HTML定义文本的内容,通过超链接把文本连接起来,使得大众可以共享信息。W3C提出的可扩展标记语言XML,实现对互联网文档内容的结构通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。
4)2000-2006时期:群体智能
万维网的出现使得知识从封闭知识走向开放知识,从集中构建知识成为分布群体智能知识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关联来产生更多的知识而非完全由固定人生产。
这个过程中出现了群体智能,最典型的代表就是维基百科,实际上是用户去建立知识,体现了互联网大众用户对知识的贡献,成为今天大规模结构化知识图谱的重要基础。
5)2006年至今:知识图谱—知识工程新发展时期
妇科炎症用什么药好
“知识就是力量”,将万维网内容转化为能够为智能应用提供动力的机器可理解和计算的知识是这一时期的目标。从2006年开始,大规模维基百科类富结构知识资源的出现和网络规模信息提取方法的进步,使得大规模知识获取方法取得了巨大进展。
当前自动构建的知识库已成为语义搜索、大数据分析、智能推荐和数据集成的强大资产,在大型行业和领域中正在得到广泛使用。典型的例子是谷歌收购Freeba后在2012年推出的知识图谱(Knowledge Graph),Facebook的图谱搜索,Microsoft Satori以及商业、金韩式部队火锅
融、生命科学等领域特定的知识库。
上表中展示的是知识图谱领域10个相关重要国际学术会议,这些会议为知识图谱领域的研究方向、技术趋势与学者研究成果提供重要信息。
把知识变成图谱一共需要花几步?
知识图谱技术是知识图谱建立和应用的技术,参考中国中文信息学会语言与知识计算专委会发布的《知识图谱发展报告2018年版》,本报告将知识图谱技术分为知识表示与建模、知识获取、知识融合、知识图谱查询和推理计算、知识应用技术。
1、知识表示与建模
荨麻疹有什么症状知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识,特别是常识知识才能实现真正类人的智能。
目前,随着自然语言处理领域词向量等嵌入(Embedding)技术手段的出现,采用连续向量方式来表示知识的研究(TransE翻译模型、SME、SLM、NTN、MLP,以及NAM神经
网络模型等)正在逐渐取代与上述以符号逻辑为基础知识表示方法相融合,成为现阶段知识表示的研究热点。更为重要的是,知识图谱嵌入也通常作为一种类型的先验知识辅助输入到很多深度神经网络模型中,用来约束和监督神经网络的训练过程,如下图所示。