知识图谱学习(⼆):电商知识图谱
知识图谱学习(⼆):电商知识图谱
只能坚强——本⽂摘⾃机械⼯业出版社华章图书《阿⾥巴巴B2B电商算法实战》,参考⽂献请参见原书。
⽬录
前⾔
互联⽹创业潮
互联⽹是20世纪最伟⼤的技术发明之⼀。 在20世纪60年代⾄80年代,各种互联⽹核⼼技术突飞猛进。从20世纪90年代开始,基于互联⽹的商业创新层出不穷,伴随技术变⾰⽽产⽣的创新商业模式已经完全改变了⼈们的⾐、⾷、住、⾏、社交、消费等⽣活⽅式,在技术的驱动下,商业在不断为⼈们创造美好的⽣活。中国互联⽹的商业化始于1994年,20世纪90年代最后5年创建的互联⽹公司奠定了后续20年中国互联⽹的商业格局,其中不乏成长为商业巨头的公司,如阿⾥巴巴和腾讯。互联⽹商业化在中国演进的近30年历史中,经历了3次⼤的浪潮。
第⼀次浪潮:PC互联⽹(1995-2000)
20世纪90年代最后的5年,以⽹易、搜狐、新浪为代表的门户⽹站纷纷成⽴,并在后续5年改变了⼈们获取信息的⽅式。同时,阿⾥巴巴(电商)、腾讯(社交)、百度(搜索)、携程(出⾏) 也先后于这段时期创⽴。延续第⼀次浪潮的余波,2005年,Web 2.0开始在中国绽放,天涯社区、⼈⼈⽹、QQ空间等与传统门户⽹站不同的新的内容⽣产和消费形式陆续出现,⽹民从信息接收者和消费者变为户⽹站不同的新的内容⽣产和消费形式陆续出现,⽹民从信息接收者和消费者变为内容⽣产者,为后续⾃媒体和移动化社交的进⼀步发展埋下伏笔。
第⼆次浪潮:移动互联⽹(2009-2015)
中国肢残人协会 随着4G⽹络和智能⼿机的普及,2012年⼿机⽹民数量达到4.2亿,超过PC⽹民数量。移动互联⽹的爆发,激发了新的商业模式和⽣活⽅式,成就了⼿机淘宝、微信等超级App。延续移动互联⽹浪潮,移动出⾏、共享单车、团购、外卖⼜引爆了⼀波创业浪潮,滴滴与快的、摩拜与ofo、美团与⼤众点评,商战交锋,跌宕起伏。
第三次浪潮:产业互联⽹(2015年⾄今)
2015年,“互联⽹+”的概念⾸次被提出,产业互联⽹已逐渐成为⾏业聚焦点,移动互联⽹、云计算、⼤数据与⼯业制作结合,促进了现代制造企业的转型升级。消费互联⽹以在线个性化的⽅式将商品推送给消费者;产业互联⽹则从更上游切⼊,聚焦基于下游需求洞察的柔性⽣产制造供应链升级。其中,
典型的案例是电商界的“⿊马”拼多多。拼多多聚焦下沉市场,撼动了整个电商格局。拼多多当下正致⼒于
C2M转型和品牌升级,推出了"新品牌”计划。当然,阿⾥巴巴和京东作为电商⾏业的领跑者也不会静观其变,分别推出了"⼚销通”和"⼚直优品”计划。优质供给产业链的竞争⼜必将是⼀场腥风⾎⾬。
回顾近30年的互联⽹创业潮,其内在驱动⼒都可以归因于科技进步。从技术⾓度看,互联⽹的变迁可分为以下阶段。
第⼀阶段:门户时代,核⼼技术是分类索引。
第⼆阶段:搜索时代,核⼼技术是搜索引擎。
第三阶段: SNS时代, 核⼼技术是关系图谱。
第四阶段:信息时代,核⼼技术是推荐算法。
电商⽣态躲避球
美的历程读书笔记
互联⽹中最丰富的资源是流量,⽽流量变现最直接的⽅式是电商,所以放眼当前各个主流App,诸如
今⽇头条、快⼿、微信等,都在尝试直播带货和社交分销的运营模式。当然,以电商为核⼼商业模式的平台App,也都在以各种形式构建⾃⼰独特的营销玩法和商业壁垒。正如本书书名所表明的,本书内容强调阿⾥巴巴B2B商业模式背后的算法技术⽀撑⼒和驱动⼒。在正⽂开始之前,我们先简要介绍主流的电商业态以及相应的核⼼算法和技术能⼒,以便读者迅速了解全貌。
平台模式是当下主流电商形态,即便是以社交电商⾃居的拼多多也绕不开平台模式,笔者认为其背后的关键是基于平台中⼼化流量的强抓⼿和强管控特性,设计商业化变现机制,从⽽实现商业营收、资本回报。整体⽽⾔,打造有竞争⼒的平台,核⼼切⼊点是实现供需两端的匹配。在供给端,寻找优质供给商家和⼯⼚,通过算法技术提供商品数字化、线上化的⼯具,并且通过平台流量分发机制给予增量买家扶持。在需求端,洞察消费者需求,通过算法技术提供搜索和推荐触达⽅式,提供更精准、优质的服务。对于匹配机制,结合商家能⼒、商品特性、买家⾝份和⾏为偏好,构建以点击率和转化率为变量因⼦的匹配模型。当然,深耕平台价值,还需要关注外围电商基础设施的建设,包括商家和商品的质量认证体系、交易担保体系、供应链履约体系等。以阿⾥巴巴为例,集团内部有“平台质量”⼀级部门来把控整体质量风险。2004年, ⽀付宝的出现,简化了交易流程; 2014年, 菜鸟物流的出现,标志着完备的智能物流体系已构建好。
电商业态主要分为B2B (Business to Business)、B2C (Business to Customer)和C2C (Customer to Customer) 3种模式。
B2B平台的参与⽅通常都是商家,平台的核⼼价值是⼯具化赋能供需两端,其商业化变现⽅法是收取会员费和增值服务费。典型代表公司是阿⾥巴巴CBU事业部、慧聪⽹、敦煌⽹。
B2C平台将商家⽣产的具有品牌价值的商品传递给消费者,平台的核⼼价值体现为降本提效,其商业变现⽅法是佣⾦提成。典型代表公司是京东和天猫,这两家公司在整个B2C市场中的份额超过80%。数控编程学习
C2C平台的绝对领导者是淘宝,2019年“双⼗⼀”⼤促期间,整个淘宝系电商平台的GMV (成交总额)达到了2684亿元。除了在算法技术层⾯对搜索和推荐功能持续深度优化外,淘宝也在强化内容带货的价值,主流玩法包括淘宝直播和哇哦视频。
除了上述3种典型模式,同时串联起B2B、B2C、 C2C模式的C2M模式也逐渐成为当下各主流电商平台的争夺点,平台基于⼤数据智能洞察和挖掘市场机会,并通过集单议价牵⼸|供给,为买家提供极具性价⽐的供给,为⼯⼚卖家提供货品销售的更多机会,同时也为中⼩⼯⼚开店、选品、营销提供全⽅位的技术⽀持。
毫不夸张地说,阿⾥巴巴的发家史就是中国电商的演进史,阿⾥⼈始终直⾯“战争”,通过商战赢得胜利,同时也助推经济发展和产业升级。阿⾥CBU和淘宝分别成为当下B2B和C2C市场的第⼀梯队领跑者, 它们近20年的核⼼技术发展历程如下图所⽰,并且两者在2019年形成合⼒,互通供需两个主赛道。
经费使用情况图 阿⾥电商核⼼技术发展历程
⼀、知识⼯程与专家系统
在1977年第五届国际⼈⼯智能会议上,美国斯坦福⼤学计算机科学家Edward A. Felgenbaum发表的⽂章 The art of artificial intelligence. 1. Themes and ca studies of knowledge engineering,系统性地阐述了“专家系统”的思想,并且提出了“知识⼯程”的概念。他认为:“知识⼯程利⽤了⼈⼯智能的原理和⽅法,为那些需要专家知识才能解决的应⽤难题提供求解的⼀般准则和⼯具。在1984年8⽉全国第五代计算机专家讨论会上,史忠植教授提出:“知识⼯程是研究知识信息处理的学科,提供开发智能系统的技术,是⼈⼯智能、数据库技术、数理逻辑、认知科学、⼼理学等学科交叉发展的结果。”专家系统最成功的案例是DEC的专家配置系统
XCON。1980年,XCON最初被⽤于DEC位于新罕布什尔州萨利姆的⼯⼚,它拥有⼤约2500条规则。截⾄1986年,它⼀共处理了80 000条指令,准确率达到95%~98%。据估计,通过减少技师出错时送给客户的组件以加速组装流程和增加客户满意度,它每年为DEC节省2500万美元。⼀个典型的专家系统如图1所⽰,其特点主要包括:
在特定领域⾥要具有和⼈⼀样或者超出⼈的⾼质量解决困难问题的能⼒;
拥有⼤量、全⾯的关于特定领域的专业知识;
采⽤启发的⽅法来指导推理过程,从⽽缩⼩解决⽅案的搜索范围;
能够提供对⾃⼰的推理决策结果进⾏解释的能⼒;
引⼊表⽰不同类型知识(如事实、概念和规则)的符号,专家系统在解决问题的时候⽤这些符号进⾏推理;
能够提供咨询建议、修改、更新、拓展能⼒,并能处理不确定和不相关的数据。
图1 专家系统架构
信守的近义词 可以看到,专家系统⼤量依靠领域专家⼈⼯构建的知识库。在数据量激增、信息暴涨的当下,⼈⼯维护知识库的⽅式在效率和覆盖率上都难以达到令⼈满意的⽔平。另外,推理规则的增加也增加了系统的复杂度,从⽽导致系统⾮常难以维护。
⼆、语义⽹络与知识图谱
1. 语义⽹络
伴随着Web技术的不断发展,⼈类先后经历了以⽹页的链接为主要特征的Web 1.0时代到以数据的链接(Linked Data)为主要特征的Web 2.0时代,⽬前Web技术正逐步朝向Web之⽗Berners Lee在2001年提出的基于知识互联的语义⽹络(mantic Web),也就是Web 3.0时代迈进。在Web 2.0时代,互联⽹发展迅猛,数据的规模呈爆发式增长,基于统计的机器学习⽅法占据主流,并且在各个领域取得不错的成果。例如搜索引擎,搜索的流程⼤致可拆分为基于⽤户查询、召回、L2R这3个过程,⼀定程度提升了⽤户获取信息的效率。但是这种服务模式仍然是把⼀系列信息抛给⽤户,⽤户最终还是需要对数据进⾏筛选、甄别,才能拿到⾃⼰最需要的信息。因此这种服务⽅式在效率、准确率上都有缺陷。语义⽹络的⽬标是构建⼀个⼈与机器都可理解的万维⽹,使得⽹络更加智能化,在解析⽤户查询意图的基础上,提供更加精准和快速的服务。传统的语义⽹络要做到这⼀点,就需要把所有在线⽂档构成的数据都进⾏处理并存放在⼀起,形成⼀个巨⼤、可⽤的数据库。这么做需要强⼤的数据处理和Web内容智能分析能⼒:⾸先就需要对这些Web数据进⾏语义标注,但是由于Web数据具有体量巨⼤、异质异构、领域范围⼤等特点,所以如何⾃动给Web上的⽹页内容添加合适的标签成为技术痛点之⼀。另外,⾯对已经标注过的Web数据,机器如何进⾏思考和推理也是亟待解决的问题。由于上述问题的存在,在语义⽹络提出后的10年间,其没有得到⼤规模应⽤,但是在对其研究的过程中,积累沉淀了成熟的本体模型建模和形式化知识表达⽅法,例如RDF(Resource Description Framework)
和万维⽹本体语⾔(Web Ontology Language,OWL),这为后续知识图谱的出现奠定了基础。
2. 知识图谱
①知识图谱概述
知识图谱由Google公司于2012年5⽉16⽇第⼀次正式提出并应⽤于Google搜索中的辅助知识库。⾕歌知识图谱除了显⽰其他⽹站的链接列表,还提供结构化及详细的相关主题的信息。其⽬标是提⾼搜索引擎的能⼒,希望⽤户能够使⽤这项功能来解决他们遇到的查询问题,从⽽提⾼搜索质量和⽤户体验。知识图谱是结构化的语义知识库,⽤于以符号形式描述物理世界中的概念及其之间的关系。其基本组成单位是 “实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互连接,构成⽹状的知识结构。随着知识图谱构建规模越来越⼤,复杂度越来越⾼,开始出现实体、类别、属性、关系等多颗粒度、多层次的语义单元,这些关联关系通过统⼀的知识模式(Schema)抽象层和知识实例(Instance)层共同作⽤构成更加复杂的知识系统。从定义中可以看到,知识图谱是⼀个语义知识库,具备⾜够的领域知识,其最重要的组成成分是三元组。三元组通常可以表⽰为G=<Eh,R,Et>,其中R表⽰知识图谱中实体间所有关系的集合,例如关系“is_a”。⼀般情况下,关系都是带⽅向且有明确语义的,反之则关系不能成⽴,例如“阿⾥巴巴is_a公司”。也有⼀些关系是双向的,例如“张三is_friend_of李四”,反之亦然。对于这种双向关系,通常情况会对调实体位置,拆分为2个三元组分别存储。实体Eh、
Et⊆E={e1,e2,…,e|E|}分别表⽰头实体(Head Entity)、尾实体(Tail Entity),两个实体共同⽤于表征关系的⽅向。实体及其属性可以⽤⼀种特殊的关系三元组表⽰,例如“has_a”。实体和属性的界线⽐较模糊,⼀般从业务⾓度出发,在设计Schema的时候,如果认为某类属性具有⼀类概念的共性,同时在后⾯的推理(例如路径游⾛时新关系发现)中能够发挥作⽤,就可以把它作为实体对待。还有⼀类属性,⽐如年龄、⾝⾼,这类单纯描述实体特征的最细粒度属性,则⼀般被设计为属性。
②常见开放知识图谱
WordNet是由普林斯顿⼤学认知科学实验室于1985年构建的⼀个英⽂电⼦词典和本体知识库,采⽤⼈⼯标注的⽅法构建。WordNet 主要定义了名词、形容词、动词和副词之间的语义关系,包括同义关系、反义关系、上下位关系、整体部分关系、蕴含关系、因果关系、近似关系等。⽐如,其中的名词之间的上下位关系,“⽔果”是“苹果”的上位词。Freeba是由创业公司MetaWeb于2005年启动的⼀个以开放、共享、协同的⽅式构建的⼤规模链接数据库语义⽹络项⽬,2010年被⾕歌收购并成为⾕歌知识图谱中的重要组成部分。Freeba 主要数据源有Wikipedia、世界名⼈数据库(NNDB)、开放⾳乐数据库(Music-Brainz)以及社区⽤户的贡献。它主要通过三元组构造知识,并采⽤图数据存储,有5800多万个实体和30多亿个实体间关系三元组。2016年正式关闭,数据和API服务都迁移⾄
Wikidata。Yago是由德国马普研究所研发的链接知识库,主要集成了Wikipedia、WordNet和GeoNam
es这3个数据库中的数据。Yago将WordNet的词汇定义与Wikipedia的分类体系进⾏融合,从⽽使得Yago相对于DBpedia有更加丰富的实体分类体系,同时Yago还考虑了时间和空间知识,为知识条⽬增加了时间和空间维度属性描述。⽬前Yago已经包含1.2亿条三元组知识,是IBM Watson的后端知识库之
⼀。OpenKG是⼀个⾯向中⽂领域的开放知识图谱社区项⽬,主要⽬的是促进中⽂领域知识图谱数据的开放与互联。OpenKG上已经收录了⼤量开放中⽂知识图谱数据、⼯具及⽂献。⽬前开放的知识图谱数据包括百科类的(狗尾草科技、东南⼤学)、CN-
DBpedia(复旦⼤学)、XLore(清华⼤学) 等。当然,还有⼀些垂直领域知识图谱,这类知识图谱不像上述通⽤领域知识图谱那样所涉内容⼴⽽全。垂直领域知识图谱主要⾯向特定领域的特定知识、应⽤场景进⾏构建,⽐如医疗领域的Linked Life Data、电商领域的阿⾥巴巴商品知识图谱和场景导购知识图谱。
三、知识图谱构建
知识图谱构建是⼀个系统⼯程,涵盖多种信息处理技术,⽤于满⾜图谱构建过程中的各种需要。典型的图谱构建流程主要包括:知识抽取、知识推理和知识存储。知识表⽰贯穿于整个知识图谱构建和应⽤的过程,在不同阶段知识表⽰具有不同的体现形式,例如在图谱构建阶段,知识表⽰主要⽤于描
述知识图谱结构,指导和展⽰知识抽取、知识推理过程;在应⽤阶段,知识表⽰则主要考虑上层应⽤期望知识图谱提供什么类型的语义信息,⽤以赋能上层应⽤的语义计算。本节重点讲述⾯向应⽤的知识图谱表⽰。
1. 知识抽取
知识抽取是知识图谱构建的第⼀步,是构建⼤规模知识图谱的关键,其⽬的是在不同来源、不同结构的基础数据中进⾏知识信息抽取。按照知识在图谱中的组成成分,知识抽取任务可以进⼀步细分为实体抽取、属性抽取和关系抽取。知识抽取的数据源有可能是结构化的(如现有的各种结构化数据库),也有可能是半结构化的(如各种百科数据的infobox)或⾮结构化的(如各种纯⽂本数据)。针对不同类型的数据源,知识抽取所需要的技术不同,技术难点也不同。通常情况下,⼀个知识图谱构建过程⾯对的数据源不会是单⼀类型数据源。本节重点介绍针对⾮结构化⽂本数据进⾏信息抽取的技术。如上⽂所述,实体和属性间的界线⽐较模糊,故可以⽤⼀套抽取技术实现,所以下⽂如果不做特殊说明,实体抽取泛指实体、属性抽取。
①实体抽取
实体抽取技术历史⽐较久远,具有成体系、成熟度⾼的特点。早期的实体抽取也称为命名实体识别(Named Entity
Recognition,NER),指的是从原始语料中⾃动识别出命名实体。命名实体指的是具有特定意义的实体名词,如⼈名、机构名、地名等专有名词。实体是知识图谱中的最基本的元素,其性能将直接影响知识库的质量。按照NER抽取技术特点,可以将实体抽取技术分为基于规则的⽅法、基于统计机器学习的⽅法和基于深度学习的⽅法。
基于规则的⽅法:
基于规则的⽅法⾸先需要⼈⼯构建⼤量的实体抽取规则,然后利⽤这些规则在⽂本中进⾏匹配。虽然这种⽅法对领域知识要求较⾼,设计起来会⾮常复杂,且实现规则的全覆盖⽐较困难,移植性⽐较差,但是在启动的时候可以通过这个⽅法可以快速得到⼀批标注语料。
基于统计机器学习的⽅法:
既然是机器学习的⽅法,就需要标注语料,⾼质量的标注语料是通过这类⽅法得到好的效果的重要保障。该⽅法的实现过程为:在⾼质量的标注语料的基础上,通过⼈⼯设计的特征模板构造特征,然后通过序列标注模型,如隐马尔可夫模型(Hidden Markov Model,HMM)、最⼤熵模型(Maximum Entropy Model,MEM)和条件随机场模型(Conditional Random Fields,CRF)进⾏训练和识别。模型特征的设计需要较强的领域知识,需要针对对应实体类型的特点进⾏设计。例如,在⼈名识别任务中,⼀个中⽂⼈名本⾝的显著特点是⼀般由姓和⼀两个汉字组成,并且⼈名的上下⽂也有⼀些规律,
如“×××教授”“他叫×××”。在有了⾼质量的标注语料的基础上,合适的特征设计是得到好的序列标注模型效果的⼜⼀重要保障。对于序列标注模型,⼀般我们对需要识别的⽬标字符串⽚段(实体)通过SBIEO(Single、Begin、Inside、End、Other)或者SBIO(Single、Begin、Inside、Other)标注体系进⾏标注。命名实体标注由实体的起始字符(B)、中间字符(I)、结束字符(E)、单独成实体的字符(S)、其他字符(O)等组成,如图2所⽰。
图2 命名实体标注
为了区分实体的类型,会在标注体系上带上对应的类型标签,例如ORG-B、ORG-I、ORG-E。在实体抽取中,我们最常⽤的基于统计的序列标注学习模型是HMM、CRF。其中,HMM描述由隐藏的隐马尔可夫随机⽣成观测序列的联合分布的P(X,Y)过程,属于⽣成模型(Generative Model),CRF则是描述⼀组输⼊随机变量条件下另⼀组构成马尔可夫随机场的数据变量的条件概率分布P(Y|X),属于判别模型(Discrimination Model)。以HMM为例,模型可形式化表⽰为λ= (A,B,π),设I是长度为T的状态序列,O是对应长度的观测序列,M为所有可能的观测数(对应于词典集合⼤⼩),N为所有状态数(对应标注的类别数),A是状态转移矩阵:
其中:
错过以后 aij表⽰在时刻t处于qi的条件下在时刻t+1转移到qj的概率。B是观测概率矩阵:
其中:
π是初始状态概率向量:
其中:
πi表⽰在时刻t=1处于状态qi的概率。HMM模型的参数学习即学习上⾯的A,B,π矩阵,有很多实现⽅法,⽐如EM和最⼤似然估计。⼀般在语料充⾜的情况下,为了简化过程,采⽤最⼤似然估计,例如:
序列标注任务可以抽象为求解给定观察序列O=(o1,o2,…,oT)和模型λ=(A,B,π),也就是计算在模型λ下使给定观测序列条件概率
P(I|O)最⼤的观测序列I=(i1,i2,…,iT),即在给定观测序列(即原始字符串⽂本)中求最有可能的对应的状态序列(标注结构)。⼀般采⽤维特⽐算法,这是⼀种通过动态规划⽅法求概率最⼤路径的算法,⼀条路径对应⼀个状态序列。定义在时刻t状态为i的所有单个路径(i1,i2,…,it)中概率最⼤值为:
可以得到变量δ的递推公式:
定义在时刻t状态为i的所有单个路径(i1,i2,…,it-1,i)中概率最⼤的路径的第t-1个节点为:
维特⽐算法在初始化δ1(i)=πibi(o1),Ψ1(i)=0,i=1,2,…,N之后,通过上述递推公式,得到最优序列。CRF算法与维特⽐算法类似,其得到在各个位置上的⾮规范化概率的最⼤值,同时记录该路径:
基于深度学习的⽅法
在上⾯介绍⽤统计机器学习的⽅法构造特征的时候,我们发现实体在原始⽂本中的上下⽂特征⾮常重要。构建上下⽂特征需要⼤量的领域知识,且要在特征⼯程上下不少功夫。随着深度学习的⽅法在⾃然语⾔处理上的⼴泛应⽤,构建上下⽂特征开始变得简单了。深度学习的⽅法直接以词/字向量作为输⼊,⼀些模型(如RNN、Transformer等)本⾝就能很好地学习到上下⽂信息,并且不需要专门设计特征来捕捉各种语义信息,相⽐传统的统计机器学习模型,性能都得到了显著提⾼。这⼀类模型的通⽤结构基本都是⼀个深度神经⽹络+CRF,如bi-LSTM-CRF、IDCNN-CRF、LSTM-CNN-CRF、Bert-biLSTM-CRF等,模型可以基于字或词输⼊(⼀般来说,基于字的模型性能更加优秀,它可以有效解决OOV问题)。这个DNN模型可以学习上下⽂语义特征、预测各个位置上输出各个标签的概率,然后再接⼊CRF层来学习各标签之间的依赖关系,得到最终的标注结果。
②关系抽取
关系抽取的⽬标是抽取两个或者多个实体间的语义关系,从⽽使得知识图谱真正成为⼀张图。关系抽取的研究是以MUC(Message Understanding Conference)评测会议和后来取代MUC的ACE(Automatic Content Extraction)评测会议为主线进⾏的。ACE会议会提供测评数据,现在许多先进的算法已经被提出。⼀般关系抽取的顺序是,先识别实体,再抽取实体之间可能存在的关系。其实也可以把实体抽取、关系抽取联合在⼀起同时完成。⽬前,关系抽取⽅法可以分为基于模板的关系抽取和基于监督学习的关系抽取两种⽅法。
基于模板的关系抽取
基于模板的关系抽取,即由⼈⼯设计模板,再结合语⾔学知识和具体关系的语料特点,采⽤boot-strap思路到语料⾥匹配并进⾏抽取关系。这种⽅法适⽤于⼩规模、特定领域任务冷启动时的关系抽取,这种场景下效果⽐较稳定。
基于监督学习的关系抽取
基于监督学习的关系抽取⽅法⼀般把关系抽取任务当作⼀系列的分类问题处理。即基于⼤规模的标注语料,针对实体所在的句⼦训练有监督的分类模型。分类模型有很多,例如统计机器学习⽅法SVM及深度学习⽅法(如CNN)等。传统的机器学习⽅法重点在特征选择上,除了实体本⾝的词特征,还包括实体词本⾝、实体类型、两个实体间的词以及实体距离等特征。很多研究都引⼊了依存句法特征,⽤以引⼊实体间的线性依赖关系。基于深度学习的关系抽取⽅法则不需要⼈⼯构建各种特征,输⼊⼀般只要包括句⼦中的词及其位置的向量表⽰特征。⽬前基于深度学习的关系抽取⽅法可以分为流⽔线⽅法(Pipeline)和联合抽取⽅法(Jointly) 。前者是将实体识别和关系抽取作为两个前后依赖的分离过程;后者则把两个⽅法相结合,在统⼀模型中同时完成,从⽽避免流⽔线⽅法中存在的错误累计问题。在经典的深度学习关系抽取⽅法中,输⼊层采⽤的就是词、位置信息,将在Embedding层得到的向量作为模型的输⼊,经
图3 经典深度学习关系抽取模型架构
③知识融合