我们的实践:事理图谱,下⼀代知识图谱
图1-⼈⼯智能发展趋势
⼈⼯智能起起落落,但⼈⼯智能进步的步伐从未停歇。从⼈⼯智能的发展阶段来看,⼈⼯智能先后经历了从计算智能到感知智能再到认知智能的三个发展阶段。在计算智能时代,以神经⽹络、遗传算法为代表的学习算法,让机器能够帮助⼈类存储和快速处理海量数据,使得机器开始像⼈类⼀样“能说会算”。感知智能时代,机器能够开始看懂和听懂,并采取⼀些⾏动和听懂语⾳的⾳箱,帮助⼈类⾼效地完成看和听的相关⼯作。认知智能时代,是⼈⼯智能的终极⽬标,即机器能够像⼈⼀样思考,并采取⾏动,如
完全独⽴驾驶的⽆⼈驾驶汽车、⾃主⾏动的机器⼈等,完成全⾯辅助或替代⼈类的⼯作。随着数据、模型、计算能⼒的全⾯提升,计算智能和感知智能已经初步实现,⽽真正实现机器的认知智能依然⾯临着诸多挑战。
⼆、认知智能与知识图谱鳄鱼好吃吗
认知智能的核⼼在于机器的辨识、思考以及主动学习。其中,辨识指能够基于掌握的知识进⾏识别、判断、感知,思考强调机器能够运⽤知识进⾏推理和决策,主动学习突出机器进⾏知识运⽤和学习的⾃动化和⾃主化。这三个⽅⾯概括起来,就是强⼤的知识库、强⼤的知识计算能⼒以及计算资源。
广告预算
知识存在于我们的⼤脑当中,我们在从事社会活动的过程中,实际上是对知识的获取和使⽤过程。就知识库⾔,⼤致两类知识,⼀类是常识知识库(commonn knowledgeba),另⼀类是百科类知识库(cyclopedia knowledgeba)。常识知识库包括⼈类认知系统中的概念、语⾔规则知识库,如现在的wordnet,mindnet,Framenet,Proba等,另⼀类百科知识库,则描述了现实⽣活中的事实知识(fact)。如Freeba,YAGO,DBpedia等。
以描述实体与实体、实体与属性值为形式化表⽰的知识图谱⽬前已是⼤家⽿熟能详的⼀个概念,⽽何谓知识图谱?我们可以从⼏个⽅⾯来看,从AI的视⾓来看,知识图谱是⼀种理解⼈类语⾔的知识库,从数据库视⾓来看,知识图谱是⼀种新型的知识存储结构;从知识表⽰视⾓来看,知识图谱是计算机
理解知识的⼀种⽅法;从web视⾓来看,知识图谱是知识数据之间的⼀种语义互联。从最初的逻辑语义⽹(mantic-net)、到语义⽹络(mantic-web)再到Linked-data,在到现在的⼤规模应⽤的知识图谱,已经前前后后经历了将近50年的时间。⽽知识图谱真正作为⼀个突出热点⾛进⼤家眼球的,还是在2012年以收购freeba作为后台知识图谱的google,以简洁答案、知识卡⽚的⽅式颠覆传统⽂档搜索形式的横空出世,从这个时间算起,也就7年的时间,所以知识图谱既是年⽼⼜是年轻的。
知识图谱,是实现认知智能的知识库,是武装认知智能机器⼈的⼤脑,这是知识图谱与认知智能的最本质联系,知识图谱,与以深度神经⽹络为代表的连接主义不同,作为符号主义,从⼀开始提出就注定了要从知识表⽰、知识描述、知识计算与推理上不断前⾏。⽬前知识图谱在诸如问答、⾦融、教育、银⾏、旅游、司法等领域中取得了⼤规模的运⽤。基于知识图谱的智能问答、在抓捕本拉登时斩获战功的Palantir、战胜⼈类的IBM深蓝机器⼈、颠覆传统⽹页搜索模式的⾕歌知识图谱等等,都显⽰出了知识图谱的强⼤⽣命⼒。⽬前,我们以⾦融领域和全⾏业领域为试点,开展了相关对研发⼯作,构建起了全⾏业11个主流产业链知识图谱,主要包括246个⾏业、上万个商品品种的⾏业知识图谱和涵盖A股的上市公司⾦融知识图谱。
1、全⾏业产业链知识图谱
产业链知识图谱,⽬标是构建起全⾏的上下⾏业图谱,⾏业之间的上下游关系,⾏业中个⼤元素之间
take过去式的关系,例如⾏业下产品、公司之间的关联等等。为了保证产业链中数据的准确性,我们通过⾏业研究员⼈⼯定义本体,耗时半年时间,构建起了全⾏业11个主流产业链知识图谱,主要包括246个⾏业、上万个商品品种,⼏千家上市公司,共计⼏百万条关系边的产业链知识图谱,如下图2所⽰:
图2-产业链知识图谱(部分)
2、上市公司⾦融知识图谱
公司⾦融领域研究的核⼼对象,公司作为⾦融中的重要⾓⾊,构建起公司知识全景图谱对于进⼀步知识整合、公司监测、公司运营等具有显著作⽤。我们以A股上市公司为基本数据来源和研究对象,构建起涵盖公司、⾏业、板块、⼈物、原料、产品等共17类实体,并购、竞争、供应、投资等共16类实体关系,规模达百万级的A股上市公司知识图谱,如下图3所⽰:女娲传
图3-⾦融领域知识图谱(部分)屏息凝神的意思
三、从知识图谱到事理图谱
从知识图谱的本质上来说,是以传统本体概念为基础进⾏知识组织的,⽽在知识处理领域,这种传统本体概念依然存在着⼀些局限性,传统本体对于概念的描述着重对其静态特征的描述,缺乏对动态特征的描述,经典的“⽹球”问题就是典型的例⼦。实际上,许多哲学家认为世界是物质和运动的,物质和运动的世界是由事物和事件组成,物质是相对静态的知识形式,反映了客观世界中事物存在的规律。然⽽,⼈类的命题记忆是以“事件”为存储单位的,存储的是组成事件的概念及其之间的关系以及事件及其之间的关系。以事件作为知识的基本单元更能反映客观世界的知识,特别是知识的动态性,从认知⼼理学的⾓度来看,事件更符合⼈类的理解与思维习惯。⼈类主要是以“事件”为单位进⾏记忆和理解现实世界的,事件关系到多⽅⾯的概念,是⽐概念粒度更⼤的知识单元。传统本体所使⽤的概念模型难以反映事件这⼀更⾼层次和更复杂的语义信息,模型缺少了更⾼层次的结构。
从知识刻画上来说,知识图谱的局限主要体现在两个⽅⾯:⼀是对⼈类知识的刻画上上不具备动态属性。知识图谱中所刻画和描述的知识是静态的⾮⿊即⽩的⼀种确定性事实,⽽现实⼈类社会当中,知识是动态变化的,知识本⾝会因为外部条件的变化⽽失真。另⼀个是知识图谱在应⽤上的⼀种局限性,知识图谱只能回答什么是什么的问题,对包括基于已知知识推断未知知识,对已知知识进⾏正确
性校验的知识推理,从根本上来说也没有跳出“静态”这⼀属性。在诸如“怎么了”,“接下来会怎么样?”,“为什么”,“怎么做”等问题上,知识图谱显得有些乏⼒。
事实上,⽬前关于这⽅⾯的知识需求应⽤场景有很多,如⾦融投资领域有捕捉外部事件、根据事件的逻辑关系进⾏推理、推演和预测的需求,例如“智利发⽣地震会对哪些商品标的造成何种影响?”,情报舆情领域有预测事件后续影响的需求、寻找事件发⽣原因的需求,
如“⽬标市场区域内棉花采购量突然增多、可能的原因有哪些?”。客服及咨询领域有正确定义、刻画客户服务过程中的状态变化,以提⾼服务精准化的需求,如“客户购买了此产品,如果中途赎回,哪些产品适合再次推荐给客户?”等等。
传统知识图谱中的知识是静态的,描述的是实体以及实体之间的关系,这些关系是相对确定和静态的知识,这个可以作为强⼤的知识库让机器⼈“才⾼⼋⽃,学富五车”。但如何使这“⼋⽃才”和“五车学”给“弄活”,让机器学会知识的运⽤,真正学会思考。那么就需要给这个知识再加上知识的“把玩规则”,形象的来说,就是⼀套逻辑规则。
图4-事理在思考过程中的形象表⽰
举例来说,如图4所⽰,我们在思考的过程当中,脑海⾥经常会⽐如“为什么”,“按以往的经验”、“⼋成会”、“据我分析”、“这个应该是”、“怎么可能”等词,这些词很形象的表现表⽰出了我们思考的过程,我们将思考的过程,定义为运⽤“事理”的过程,所谓“事理”,就是“事情”的道理,是思考的那条路径,这个“事情”就是我们所需要的事件。对于事理,我们可以有多种理解,事理是⼀套经验总结,是⼀套对知识的规则,是⼀套逻辑推理的⽅法论,是对特定环境下知识在时空域上的展开。图5展⽰了知识、事件、实体、事理之间的关系,事件⾼于实体,实体是事件的组成部分,事件是事理的重要组成部分,事理和实体共同组成了知识。
素描几何体组合
图5-事理、事件、实体、知识之间的关系
孩子出生祝福语⽬前,“事理图谱”还是较新的概念,国内多家公司和科研机构都在“事理图谱”的相关研究上进⾏了探索,如哈尔滨⼯业⼤学信息检索实验室刘挺⽼师团队⾸先提出了“事理图谱”这⼀概念,并做了⼀些实验和基础性的⼯作[1][2][3];中科院⾃动化所赵军⽼师团队,上海⼤学刘宗⽥⽼师团队分别在事件抽取[4]和事件本体表⽰[5]上取得了丰硕的成果。
与知识图谱的组织形式相仿,实体通过头尾相连,可以组织形成图谱状的知识图谱,事理采⽤类似的组织⽅式,可以形成事理图谱。知识图谱与事理图谱两者之间存在着诸多异同之处,我们在参考前⼈的⼯作上,结合⾃⼰的研究⼯作,从描述知识、研究对象、构建⽬标、知识形式等共10个⽅⾯进⾏了总结,如图6所⽰:有梅花的诗句