Fuda n In s ura n
保险行业知识图谱构建之初探
许闲复旦大学经济学院
许闲,复旦大学风险管理与保险
学系主任,复旦大学中国保险与社会 安全研究中心主任,复旦大学中国保 险科技实验室主任,全国会计领 才,中国保险学会常务理事,上海市保
险学会副会长。
61
S H A N G H A 二N S U R A N C E M O N T H L Y • N O V
2019
c c tv5—、弓I 言
当今的时代是人工智能的时代,随着人
们对信息整合和知识获取的要求越来越高, 传统的数据处理方式已经捉襟见肘。为了 满足人们希望能够更加快速、准确而又高效
地获取知识和信息的需求,无数的专家和学
者对此进行了研究,并建立了一套系统的知 识表示理论。知识图谱技术作为人工智能 的重要基础,凭借其强大的语义信息处理能
力及支持知识推理和分析的能力,近年来吸 引了大量的关注。
知识图谱这一概念最早由谷歌公司在
2012年提出,谷歌公司希望利用这项技术,
使其现有的搜索引擎转变为能够理解用户 输入信息的智能知识引擎。知识图谱本质 上是一种大规模语义网络,整个网络由无数 个节点和节点之间的连线组成,每个节点代
表现实世界中的一个实体,而节点之间的连 线则代表不同实体之间的关系(如图1所
昆明西点培训示),一般采用 SPO (Subject-Property-Object ) 的表示形式。实体不仅可以是某一实物,如
bedove
电脑、吉他、足球、自行车等,也可以是某一 概念集合,如地名、人名、性别、职业等。节 点之间的连线则可以表示丰富的关系,如包
含关系、先后关系、因果关系等,图谱中的实
体和实体之间的关系通常用三元组的形式
表示。除此之外,还能够给实体赋予各种属 性,这使得知识图谱具有十分突出的知识表
示能力。
知识图谱种种优异的性质使得近年来 无论是学界还是业界都对其表现出了浓厚 的兴趣,纷纷尝试建立了一系列大规模通用
知识图谱。其中比较著名的有基于WordNet
的YAGO,它包含了一百万个实体和超过五 百万的关系;也有基于Wikipedia 和专家知识 的Freeba 和DBpedia ,两者包含的实体个数
均在千万级别;还有基于机器学习方法建立 的 Knowledge Vault ,它由 Google 在 2014 年建
激烈的
立,至今已经收录了 16亿个事实三元组,并
且具有高准确率的三元组多达2.7亿个。另 外,各个细分的垂直领域也在如火如荼地建
设适用于自身的知识图谱。如影视领域的toasted
IMDB 、音乐领域的MusicBrianZ 、医疗领域的
SIDER 等。知识图谱技术具有广阔的应用前
景已经逐渐成为了各行各业的共识。
保险行业一直以来都注重将创新思维 融入到传统商业模式之中,所以知识图谱这 项极具潜力的技术早已在保险业内成为了
炙手可热的话题。但是由于目前相关技术
gwyneth paltrow尚不成熟、相关领域的复合型人才的匮乏以 及技术与业务的契合点尚不明晰等原因,使
得目前大多数保险公司或者保险科技初创 公司在知识图谱技术上的实践仅仅停留在 十分初级的阶段,有些打出知识图谱口号的 也只是出于营销的目的。对此,本文拟站在
保险行业的角度思考如何构建真正适用于 保险领域的知识图谱,从而建立保险行业知 识点之间的关系,并在此基础上探讨知识图 谱在保险行业的应用前景,为我国保险行业
pdp
桃花源记 翻译的发展提供资源支持。
onlive二、保险行业知识图谱构建方法
largely知识图谱的构建是一个浩大的工程, 一般认为,
通用领域的知识图谱构建主要