隐私计算技术的金融应用思考

更新时间:2023-07-14 01:10:21 阅读: 评论:0

分镜头脚本模板收稿日期:2021-12-30修回日期:2022-02-07
隐私计算技术的金融应用思考
王国赛1李艺1陈琨1时代2杨祖艳2
(1.清华大学五道口金融学院,北京100800;2.华控清交信息科技(北京)有限公司,北京100129)
摘要:在国家数据要素化战略和数据隐私保护要求并行的时代背景下,隐私计算技术作为实现数据安全融合的工具受到金融行业广泛关注,并已出现较多探索应用。然而,目前相关理论研究较少,同时行业对隐私计算技术缺乏系统性的梳理。本文先根据技术原理,对隐私计算技术进行了系统梳理,并从数据流通安全的角度对典型产品技术架构进行剖析。在此基础上,总结了金融行业的隐私计算技术应用现状,提出下阶段该技术大规模商业化应用的建议,为金融业更好发挥数据要素作用提供参考。
关键词:联邦学习;多方安全计算;应用架构;金融
中图分类号:F830文献标识码:B 文章编号:1674-2265(2022)08-0031-07DOI :10.19647/jki.37-1462/f.2022.08.005
作者简介:王国赛,男,湖北武汉人,工学博士,清华大学五道口金融学院博士后,研究方向为金融科技、隐私计算算法和
应用;李艺,男,江西南昌人,工学博士,清华大学五道口金融学院博士后,研究方向为多方安全计算、密码系统的设计与实现、金融科技;陈琨,男,河南濮阳人,工学博士,清华大学五道口金融学院博士后,研究方向为随机优化、金融科技、隐私计算;时代,女,北京人,华控清交信息科技(北京)有限公司研究员,研究方向为金融数据治理、监管科技、隐私计算;杨祖艳,女,重庆大足人,金融学博士,华控清交信息科技(北京)有限公司高级战略总监,研究方向为金融监管、金融科技、监管科技、隐私计算。
一、引言
近年来,针对大数据应用中频频发生的隐私泄露事件,不同国家及地区相继加强数据隐私保护立法。同时,随着数据不能流通带来的垄断问题日益严重,各行业面临的数据壁垒问题亟待解决。特别地,金融业由于其数据的高敏感性和高价值性特点,在行业内及跨行业的数据共享流通频频受阻,使得行业无法充分利用数据要素的价值。2021年2月,《金融业数据能力建设指引》(JR/T 0218—2021)正式发布,首次将“可用不可见”作为金融业数据能力建设应遵循的基本原则,提出在保障原始数据“可用不可见”的前提下规范开展数据共享与融合应用。2022年1月,国务院办公厅印发《要素市场化配置
综合改革试点总体方案》,明确提出要探索建立数据用途和用量控制制度,实现数据使用“可控可计量”。在旺盛的产业需求推动下,隐私计算技术开始受到各界广泛关注。许多金融机构积极探索隐私计算技术方案,以合规高效
地使用数据。
隐私计算技术亦被称作隐私增强技术(Privacy Enhancing Technologies ,PET )。但此处“隐私”(pri-vacy )一词指某方(包括个人和机构)不愿公开的信息,如个人隐私信息或机构的商业秘密信息,并非局限于法律意义上的“个人隐私”范畴。总体来看,国内外已有诸多金融机构、科技公司、行业组织及咨询公司发布了关于隐私计算技术的金融应用报告,为金融业了解典型隐私计算技术的特点、发展现状、可用场景及实践案例提供指引(World Economic Forum 和Deloitte ,2019;UN Global Working Group on Big Da-ta ,2019;中国信息通信研究院和阿里安全和数牍科
技,2020;强锋等,2021)[1-4]
然而,已有研究多为典型隐私计算技术的罗列,并未对所有技术进行系统性梳理,且缺乏对数据流通底层理念的讨论。这使得金融业目前对隐私计算的理解还不够深入,一些底层影响仍值得更多讨论。一方
面,行业对不同隐私计算技术原理的认识尚不清晰,对不同技术的区别认识还比较模糊,导致一些金融机构在针对业务场景选择技术时往往存在不少困惑。另一方面,行业尚未关注到隐私计算平台架构逻辑可能带来的重大影响。目前已有探讨多偏向纯技术本身,忽略了宏观层面平台架构逻辑对数据流通可监管性的影响。在这种局面下,不可监管的隐私计算平台架构投入大规模应用,将引发严重的数据流通安全隐患。
对此,本文系统总结了当前已有隐私计算应用实践,指出其大规模商业化应用仍亟待解决的瓶颈问题,并提出加强标准、立法等政策建议,为下阶段金融业安全地挖掘数据要素价值、实现数据要素利用社会价值最大化提供参考。
二、隐私计算技术介绍
(一)隐私计算技术分类
按照技术原理,隐私计算技术基本可划分为三个流派(见图1)。
1.基于密码学方法的技术。基于密码学的隐私计算技术的正确性和安全性具有密码学证明,其特点是安全强度高,计算准确度高,但计算效率因密文计算有所下降。代表性的此类技术有同态加密和多方
安全计算技术,其中,同态加密技术是一种密码算法。技术理论由Yao(1982)[5]通过提出并解答著名的“百万富翁问题”而创立。该技术通常采用一系列基础密码技术实现,包括混淆电路(Garbled Circuit)、秘密共享(Secret Sharing)和同态加密(Homomorphic En-cryption)。
2.基于统计学的技术。此类技术指基于明文数据变换的手段保护原始数据的计算技术,其安全性一般缺乏严格的密码学证明,且计算结果有损。常见的此类技术包括差分隐私和联邦学习。其中,差分隐私通过加入随机化噪声隐藏原始数据。联邦学习作为一种分布式机器学习方法,是近年来随着人工智能技术发展而最受关注的一项技术。它最早由Google提出(McMahan等,2016)[6],能够让多个互不信任的训练
数据提供方在不交换原始数据的情况下,通过交换梯度或参数等中间计算结果协同训练机器学习模型。通用性方面,联邦学习主要适用于分布式机器学习模型训练场景,而不能灵活应用于需要其他通用计算的业务场景。
3.可信执行环境(TEE)。可信执行环境是基于硬件机制的物理隔离,用Enclave沙盒模型保证数据和计算的安全性和完整性,代表性的有Intel SGX和ARM TrustZone。在计算过程中,参与计算的数据以加密形式进入可信执行环境,并解密为明文进行计算。因此,可信执行环境的硬件隔离保证了环境内部明文数据和计算逻辑的安全以及结果准确性,但可信执行环境的容量限制及数据出入环境时的加密和解密过程对整体计算性能有一定损耗。
(二)产品架构分类
本文将常见的隐私计算技术架构分为代理计算架构(数据方不互相直连)和无代理计算架构(数据方互相直连),其中后者亦可称为直连架构。
1.无代理计算架构(直连架构)。无代理计算架构中,金融机构及其他数据源平台作为数据方,直接参与隐私计算过程,即数据方同时担任计算方的角色。该架构的常见形式是对等网络(peer-to-peer)架构、客户端—服务器(client-rver)架构和主—从(master-worker)架构。对等网络架构如图2所示。具体地,两个数据提供方A和B分别部署有一个计算节点,彼此通过网络直连,在隐私计算过程中进行密文
数据交互,从而实现双方数据参与协同运算。
图2:对等网络(peer-to-peer)
架构
图3:多方无代理计算架构
人民的名义bt客户端—服务器架构常用于特定场景的两方或隐私计算,例如两方隐私集合求交(Private Set Interc-tion)计算①、隐私信息检索(Private Information Re-trieval)计算②以及某些同态加密计算和部分联邦学习场景的联合建模计算。典型隐私计算场景的客户端—服务器架构如图3所示。各数据方通过网络直连,其中不同的数据方作为服务器或客户端协同参与计算
安全生产投入
任务。图1:隐私计算技术流派划分
2.代理计算架构。在代理计算架构中,计算方参与隐私计算的过程,数据方和计算方可以不同。这种数据和计算耦合的架构可以实现高可扩展性:隐私计算平台可以在不定制化设计协议的情况下,支持接入任意两方或多方的数据源完成计算任务。我们可以视为数据方将对其数据的计算任务代理给了其他节点(计算方)完成。
该架构有两种常见的形式,一种是由一套分布式集群执行密码学的协议(多方安全计算协议),其架构如图4所示。我们可将这类架构中分布式的代理计算节点统一视为一个“虚拟的中心计算节点”。但这种“虚拟的中心计算节点”和前文所述的无代理计算的客户端—服务器架构有本质的不同:分布式的代理计算节点集群是通过分布式的密文数据计算实现了去中心化的信任,代理计算节点只执行密码学协
议计算,不提供输入数据。其安全性假设和实现的安全特性也和客户端—服务器架构不同。另一种形式的代理计算架构通过利用可信执行环境(TEE)技术构建一个可信第三方。各数据方将其数据进行非对称加密后上传至TEE节点,在TEE节点内部,数据被解密为明文,参与计算过程。
3.两种架构对比分析。首先,通用性方面。无代理计算的架构通常难以实现通用的隐私计算。代理计算架构通常支持任意多个数据方。如果数据方本地也有进行明文计算的能力,则代理计算架构除纯密文计算外,也可支持更通用的明密文混合计算(明密文混合计算可用于实现联邦学习)。
其次,可扩展方面。无代理平台对于数据方数量变化的场景需要重新定制化地设计算法,可扩展性低。基于多方安全计算技术或TEE的代理计算架构可实现通用的安全计算,适用的金融场景更广泛。
最后,可监管性方面。由于无代理计算没有中心服务器,每个参与方的计算节点存证分布分散,监管方无法有效监测数据加密、传输及计算是否采用了正确的协议。因此,监管方难以避免参与方利用监管漏洞,通过平台直接交换明文数据进行协同运算,导致严重的隐私泄露或数据不合规使用的风险。而在代理计算中,中间代理计算节点能为监管方提供持久化的数据和计算任务的存证,便于监管方进行统一监管和审计,及时发现恶意节点违背协议造成参与方之间数据不合规使用的问题,实现高效数据治理。因此,代理计算模式更易实现“技术去中心化、监管中心化”的安全数据融合。
三、隐私计算金融应用现状
根据公开资料,当前国内外金融业已有的隐私计算技术应用主要有三种:一是通过联邦学习实现的联合建模,并结合多方安全计算技术、差分隐私以及基于硬件的可信执行环境保护参与方的数据隐私;二是使用多方安全计算技术直接实现隐私查询、联合建模及联合统计,通过密码学协议保障参与方的数据信息安全;三是部署可信执行环境,如Intel SGX和ARM TrustZone,通过物理隔离各参与方的数据而进行的安全多方联合统计及联合建模。上述应用主要来自银行业和保险业,所覆盖的场景包括产品营销、风控及反洗钱业务等。根据金融机构的反馈,这些技术在试点中均实现了内外部数据的安全连通,联合建立的模型预测准确度有显著提升。
(一)联邦学习应用逐步兴起
近年来,随着人工智能金融应用逐步兴起,基于该分支的联邦学习金融应用逐步增多。由于交换的梯度或参数往往可用来推断甚至恢复原始数据信息(Kairouz等,2019;Zhu等,2019)[7,8],这些中间计算结果的交换过程通常需采用基于密码学的技术(如多方安全计算)及差分隐私技术来规避这些风险。因此,在实践中,联邦学习往往与多种隐私计算技术相结合,以规避中间信息交互存在的隐私安全隐患。具体包括:
1.“联邦学习+同态加密”较为流行。当前,由于某开源框架带来的易获得性,国内金融业的联邦学习试点应用多数采用基于同态加密的多方安全计算协议,在模型训练环节将交换的梯度或参数进行加密以
保证各建模参与方的数据隐私性。较为代表性的案例有神盾—联邦计算平台③、FATE④、百度金融安全计算平台⑤、蜂巢联邦智能平台⑥以及Fedlearn⑦。其中,蜂巢联邦智能平台亦可选择差分隐私技术,通过给交换的中间数据加入噪声而避免各方信息被直接泄露(蔡芳芳,2020)[9]。这些平台已分别联合商业银行、怀孕可以吃秋葵吗
白莲陆龟蒙
互联网金融平台、消费金融机构及保险公司开展试点
图4:多方代理计算架构
应用,利用自身沉淀的用户行为数据,和银行或保险机构的客户金融数据进行联邦学习建模,建立更精准的保险产品定价(蔡芳芳,2020)[9]、信贷风险预测(腾讯安全,2020;谢国斌,2020)[10,11]以及洗钱行为侦测模型(FedAI联邦学习,2020)[12]。
从平台架构角度看,上述试点应用的联邦学习计算平台架构均为对等网络模式,无法支持集中监管和审计的功能。一旦出现以隐私计算技术的名义进行非法数据交易的现象,其难以监管的潜在风险应引起高度警惕。
2.“联邦学习+秘密共享”优势初显。基于秘密共享的多方安全计算协议实现的联邦学习应用中,典型的有PrivPy平台⑧。该平台架构为代理计算模式,各参与方在每轮迭代中在本地执行明文数据的模型训练,并将梯度或参数通过秘密共享加密后发送给代理计算中心进行密文聚合计算。计算完成后,更新的参数以密文形式发送给各参与方用于本地下一轮训练。由于PrivPy平台实现的是明密文混合计算,即本地训练基于明文数据,中间结果加密,其在保证无梯度信息泄露的情况下实现了高效建模(中国信息通信研究院,2021)[13]。
3.“联邦学习+可信执行环境”在国外发展迅速。目前,也有一些金融机构在联邦学习建模过程中采用可信执行环境实现各方数据及计算节点的物理隔离,从而防止数据在计算过程中被窃取。基于可信执行
环境的联邦学习案例中,较为代表性的是美国金融科技公司Consilient与Intel合作建立的联邦学习反洗钱平台(Shiffman等,2020)[14]。该平台的架构为代理计算模式,参与建模的银行和中心计算服务器均部署有Intel SGX提供的可信执行环境。在建模过程中,各参与银行在其可信执行环境内明文训练本地模型,并将中间梯度或参数以加密形式传输至中心计算服务器的可信执行环境内进行聚合并计算,从而更新整体模型。随后,新的参数再以加密形式反馈至各银行的可信执行环境内进行解密并计算,更新本地模型。根据Consilient的报告,与传统反洗钱模型高达95%的误报比例相比,该平台联合5家银行建立的反洗钱模型的误报比例低至12%,在降低传统反洗钱业务成本的同时大幅度提高了预测精准度(Shiffman等,2020)[14]。目前,该平台处于测试阶段,可实现大于两家机构的联邦学习建模。
(二)多方安全计算金融试点全面铺开
相较于联邦学习,多方安全计算的通用性更强。除联合建模外,后者亦可实现隐私查询、联合统计、数据交易等计算场景。在我国,金融行业充分重视多方安全计算技术,顶层设计频频出台。2019年8月22日,中国人民银行发布《金融科技(FinTech)发展规划(2019—2021年)》,要求“构建适用互联网时代的移动终端可信环境,充分利用可信计算、安全多方计算、密码算法、生物识别等信息技术,建立健全兼顾安全与便捷的多元化身份认证体系”。2020年11月24日,《多方安全计算金融应用技术规范》(JR/T 0196—2020)(以下简称《技术规范》)正式发布,其规定了多方安全计算技术
金融应用的基础要求、安全要求、性能要求等,为技术服务提供商、解决方案提供商和金融机构在产品设计、开发和应用方面提供了指引。2021年7月,《多方安全计算金融应用评估规范》(T/PCAC0009-2021)正式出台,作为进一步落实《技术规范》的具体举措,对《技术规范》中的各项条目明确了其适用性、评估方法和通过标准,为金融检测评估机构顺利开展对多方安全计算产品的相关检测认证工作提供依据,将推动多方安全计算金融应用产品的大规模有序落地,在保障信息安全前提下实现多个主体间的数据共享与融合应用。
实践方面来看,自2020年金融科技试点项目推广以来,我国目前已有十个涉及多方安全计算技术的项目成功进入创新试点,涉及场景包括金融消费者人脸信息保护、产品营销、跨境结算、小微企业融资和信贷风控等。笔者根据公开材料对相关试点进行了总结,如表1所示。
在海外,诸多国家和地区的金融监管当局亦认识到多方安全计算技术对监管科技发展的重要性,并积极在反金融犯罪领域开展试点。例如,英国金融行为监管局(Financial Conduct Authority,FCA)在2019年举办了全球反洗钱和反欺诈技术竞赛(2019Global AML and Financial Crime TechSprint),共有由世界知名科技公司、金融集团及咨询公司构成的140余个小组参赛。在胜出的十个小组中,三个小组应用了基于多方安全计算的技术方案,解决了欺诈行为识别、反洗钱客户身份识别(Know Your Customer,KYC)、交易关联分析等场景的数据壁垒痛点(Financial Con-duct Authority,2019)[15],具体信息如表2所示。
具体应用方面,国内外金融业已有一些多方安全计算技术的落地应用,典型的有蚂蚁链摩斯多方安全计算平台⑨、XOR Secret Computing平台⑩、Duality SecurePlus系列产品⑪以及PrivPy平台。其中,前三者
主要针对的是银行业信用卡评分及反欺诈场景。这些平台应用基于同态加密及秘密共享协议的多方安全计算技术,安全融合不同银行沉淀的用户金融数据以及外部机构存储的行为数据,联合建立信用卡评分模型以及信用卡反欺诈模型。PrivPy平台实现的应用更为全面,其定位为数据要素流通的基础设施平台,已落地的金融应用场景包括企业级数据融
合平台—人脸识别隐私保护、行业级数据融合平台—个人合格投资者(QI)认证以及跨行业数据融合平台——政务金融数据融合应用等(王云河和李艺,2021)[16]。根据公开资料及市场调研结果,上述平台中,前三者均采用的是对等网络架构,因而存在较难监管、潜在数据安全风险大的问题;PrivPy采取的是代理计算模式,支持“中心化管理”,便于监管方有效监测数据交易的合规性。
(三)可信执行环境应用尚不突出
当前一些金融机构也实现了仅依赖可信执行环境进行的多方协同计算,典型的应用有百度安全开发的
Mesa TEE计算平台。该平台为全球首个通用安全计算平台,通过Intel SGX提供的可信空间物理隔离各方数据,从而完成安全的多方协同计算任务。Mesa TEE提供的安全计算解决方案包括金融联合建模及可信身份认证,能够帮助金融机构在风控环节融合多维度的用户特征数据,建立跨机构的精准风控模型⑫。另外,Mesa TEE采用代理计算模式,用可信中心节点代替多方互信,参与方的数据交互至中心节点进行计算,避免了各参与方两两交互数据造成的延迟和吞吐开销,同时支持对数据使用情况的中心化监管(FreeBuf,2019)[17]。
四、隐私计算金融应用现状思考
上述实践表明,金融业已经领先其他行业,先行探索隐私计算技术的各种应用。总体来看,这些应用存在以下特点:
一是重视技术应用,但对产品架构关注不足。特别是整个行业在认知方面,虽已体现出技术组合的思路,但仍存在重视技术而忽略产品架构的问题。多数探索应用采用的仍为网络直连架构,其大规模商业化应用可能带来的数据流通中负外部性及风险监管值得高度关注(徐葳和杨祖艳,2021)[18]。在整个行业发展初期,忽略上述安全隐患,可能造成后期一旦爆发严重的数据安全事件,出现“一刀切”的行业集中整治,导致“劣币驱逐良币”的不良后果。因此,在大规模商业化应用之前,金融业应就上述问题在业内组织各方专家充分论证、审慎推进。
二是单点应用较多,尚未实现系统全面的业务创新。目前来看,已有探索均是单个机构、单个集团基于自身需要,联合相关机构进行试点,而行业内及跨行业的数据要素流通还有待进一步加强。从需求来看,金融业的数据融合需求,除涉及银行、证券和保险等不同细分行业外,更多涉及政务、医疗、教育等行业外数据。要推动整个金融行业通过隐私计算,实现数据要素价值的充分释放,更大的推动力来自金融业务人员认识到隐私计算技术的价值。因此,金融机构还需进一步推动相关科技部门、业务管理部门加强沟通,为通过数据要素融合实现金融业务创新奠定基础。另外,金融业现有隐私计算产品多由不同技术厂商自行搭建,造成产品间的差异性较大,难以互联互通。随着此类产品的建设及使用规模逐渐扩大,金融业极易出现“技术孤岛”现象。同时,部分金融机构
表1:基于多方安全计算的金融科技创新应用试点总结
项目名称
多方数据学习“政融通”在线融资项目
基于多方安全计算的中小微企业融资服务基于同态加密的“数据通”数据融合应用基于多方安全计算溯源认证的跨境结算服务基于多方学习的涉农贷款服务
基于多方安全计算的小微企业智慧金融服务基于多方数据学习的小微融资风控平台基于多方安全计算的图像隐私保护产品
基于多方安全计算的差异化营销平台
基于区块链的金融与政务数据融合产品
牵头机构
腾讯云计算、北京小微企业金融综合服务有限公司、浦发
银行北京分行
交通银行、中移(上海)、上海理想信息产业、富数科技
上海市银行卡产业园、同态信息科技、平安银行上海分行
工商银行广州分行、广州银联网络支付、云从科技
重庆农商行、腾讯云计算
新网银行
数融科技、华夏银行成都分行、成都多控征信
辫子女孩
中国银联、交通银行、华控清交、上海聚虹光电
冰鉴科技、南京银行上海分行
中国银联、浦发银行、上海银行
场景
小微企业融资授信及风控
中小微企业融资授信及风控
中小微企业融资授信及风控
跨境结算
涉农、小微企业融资授信及风控
小微企业融资授信及风控
小微企业融资授信及风控
移动支付人脸识别
银行产品服务营销
小微企业融资授信及风控
地区
北京
上海
上海
广东
重庆
四川
四川
上海
上海
上海
表2:2019年全球反洗钱和反欺诈技术竞赛中
多方安全计算试点汇总
技术方案
隐匿查询
托盘化联合建模
隐匿查询
联合建模
业务场景
陈其乾
反欺诈—欺诈账户识别
反洗钱—客户身份识别
反洗钱—交易及账户关
联分析
参与机构
Partisia、Sedicii、Goldman Sachs、
Ex Ante Advisory、UBS、Deloitte
Cybernetica、Datq Miner、RBS、
Societe Generale、PwC
Inpher、Goldman Sachs、Standard
Chartered、Eversheds

本文发布于:2023-07-14 01:10:21,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1080567.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:计算   数据   金融
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图