知识图谱在风控的应用普洱上火吗
本文将主要讨论知识图谱在风控领域的图谱构建过程。enjoy~
一. 知识图谱和金融领域简述
什么是知识图谱?
借鉴其中一个理解:
知识图谱主要的目标是用来描述真实世界中间存在的各种实体和概念,以及它们之间的关联关系。
具体理论知识就不在此赘述,对于这个抽象的概念会有一篇文章来列举一个代表性的例子。
知识图谱起源于语义网络,最初由Google提出用与优化搜索结果,发展至今已经应用于各小区电梯
个垂直化领域。从商业概念上,知识图谱可分为“通用知识图谱”和“行业知识图谱”。通用知识图谱顾名思义是面向全领域的,强调的是“广度”,比较著名的知识库有Freeba, Wikidata, Yago, DBPedia等。
行业知识图谱是面向特定的垂直领域,对于数据有更严格的前置数据模式和更准确的准确度要求,强调的是“深度”。两者之间的主要区别在于前者是“自底向上”构建的知识库,后者是“自顶向下”构建的知识库。
个人创业小生意
金融领域数据是典型的具有”4V”特征的大数据(数量海量Volume、多结构多维度Variety、价值巨大Value、及时性要求Velocity)。进一步,金融领域是最能把数据变现的行业。金融业类别业非常广,大类主要包括:银行类、投资类、保险类等。再小粒度可分为:货币、债券、基金、信托等资管计划、要素市场、征信贷款等。知识图谱在金融领域的应用主要包括:风控、征信、审计、反欺诈、数据分析、自动化报告等,本文主要讨论知识图谱在小微风控的应用。
风控是指如何当项目或企业在一定的风险的环境里,把风险减至最低的管理过程。它的基本程序包括风险识别、风险估测、风险评价、风险控制和风险管理效果评价等环节。
风险控制的最大两个分类为企业风险监控和个人贷款审核。企业数据包括:企业基础数据、投资关系、任职关系、企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数据、企业失信数据、企业新闻数据。个人贷款的数据包括:个人的基本信息、行为信息、信用信息、社交信息、消费信息等。
本文将主要讨论知识图谱在风控领域的图谱构建过程。
雍正在位多久
二. 风控的知识图谱构建
知识图谱的逻辑结构分为两个层次:数据层和模式层。
在知识图谱的数据层,数据如果以『实体-关系-实体』或者『实体-属性-值』作为基本表达方式,我们把这种表达方式称为“三元组”,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成知识的图谱。
模式层在数据层之上,是知识图谱的核心,在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。本体库在知识图谱中的地位相当于知识库的模具,拥有本体库的知识库冗余知识较少。
脚发烫是什么原因
这里涉及知识图谱的另外一个重要概念是“本体( Ontology)”。本体的概念最早起源于哲学领域, 指的是对客观存在系统的解释和说明。在众多概念中,维基上的定义更加通俗些:本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达。具体到金融风控领域,本体目的就是对风控领域的知识术语进行分类,同时规定各个分类之间的关系和它们自身的属性。
本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体。自动化构建包含3个阶段:实体并列关系相似度计算、实体上下位关系抽取、本体的生成。在领域本体构建的实际工程中,领域本体所涉及的实体类型非常有限(最多数量也不会过百),与其花很高的成本去做自动化,不如人工构建本体。所以本章节也主要讨论风控领域的手动本体构建过程。
极度重罪
本体和知识图谱的构建方法有很多,这里分享一个在实际工作中初略的知识图谱构建流程:
本体库构建;
知识图谱构建;
知识图谱应用。
如何使用空气炸锅
留学咨询
提到知识图谱通常认为重点在于算法和开发,实际知识图谱的构建和传统关系型数据库的构建情况一样,重点在于具体业务流程的理解和本体的设计,知识图谱的构建过程的工作占比如下: