基于噪声扰动的成员推断防御机制
陈 卓①
(安徽理工大学计算机科学与工程学院,安徽淮南 232000)
摘 要:本文提出基于噪声扰动的成员推断防御机制,通过对训练数据提前进行处理来防御MLaaS中
训练数据的隐私泄露问题。分析实验中的各个参数,与没有经过扰动的数据集进行比较,结果表明本文
使用的方法在训练准确度没有严重损失且训练误差基本保持不变的情况下,测试准确度和攻击准确度
差值较小且比较接近随机猜测的效果。
关键词:深度学习;成员推断攻击;防御;隐私保护
中图分类号:TP181 文献标识码:A 文章编号:2095-9699(2020)06-0004-04
0 引言
为了更加方便地构建机器学习应用,很多互联
网厂商开始推出机器学习即服务(MLaaS)平台[1]。
MLaaS平台主要是由互联网公司在其云平台上提
供机器学习作为服务,云提供商设置机器学习环境,
分配一定数量的计算资源,数据持有者通过向云提
供商提供训练数据集或直接提供机器学习算法的方
式进行训练。在云端或客户端训练的模型存储在云
南京公租房平台中,云提供商将查询API发布给最终用户,通
常作为黑盒API,能够使用该模型进行预测或分类
。
图1 模型培训服务中隐私泄漏途径
在使用平台的过程中,数据泄露和隐私保护是值得关注的问题[2]。首先可能发生泄漏的来源为训练集。由于训练数据集是客户生成适用于客户场景的模型的必要条件,如果云提供商是恶意的,那么他可以直接从培训集中检索任意信息。攻击者可以窃取关键训练数据并以不同方式将其编码到训练模型中。另一种泄漏的方式是用户中的恶意用户可以将精心设计的输入发送到模型,根据训练数据生成的不同模型参数,通过模型的输出得到含有隐私信息的预测结果。最近的研究表明,在该场景下,即使云提供商是可以被信任的,只有黑盒访问权限的恶意远程用户仍然能通过精心设计的输入,根据查询输出得到的结果来得到有关原始训练集的有用信息,这种攻击方式称为成员推理攻击。
现有的解决方案大致分为两种[3-4]。第一种是设计隐私保护的机器学习算法和平台。但是对于完全拥有控制权限的恶意云提供商,通过禁止部署来破坏这类隐私保护,客户提供的完整数据依然会因此受到恶意攻击。第二种方法是在客户把完整数据提供给云提供商之前就对数据进行加密,来防止云提供商进行数据窃取。R.Bost等人[5]提出引入同态加密来处理训练样本,再使用加密后的数据训练模型。这种方法能够在数据被云提供商接收之前对数据进行保护,但是对于随机的机器学习算法而言,非符号加密并不通用并且性能比不高,且没有很好的泛化效果。
本文提出针对成员推断攻击的数据集扰动的隐私保护方法,通过对训练数据提前进行处理来防御MLaaS中训练数据的隐私泄露问题。使用了一个新模块Noisy-MP对数据集中的敏感信息添加噪
第35卷第6期2020年12月
景德镇学院学报
JournalofJingdezhenUniversity
Vol.35No.6
Dec.2020
①收稿日期:2020-06-25
作者简介:陈 卓(1996-),女,陕西周至人。在读硕士研究生,从事读研学习与隐私保护研究。
声后进行转化,同时保证训练模型的测试准确度。分析实验中的各个参数,并且与没有经过扰动的数据集进行比较,结果表明本文的方法引入的训练准确度降低很小,达到训练准确度没有严重损失且训练误差基本保持不变的情况下,测试准确度和攻击准确度差值较小且比较接近随机猜测的效果。
1 成员推断攻击
成员推断攻击是对手为了判断目标信息是否存在于模型的数据集中所进行的攻击方法。数据存在于训练集中和不存在于训练集时,模型的输出会表现出两种不同的类型。根据目标模型来训练攻击模型,其目的是区分目标模型对于在训练集中出现的数据与未出现的数据在输出中的行为差异[6]。
在黑箱设置中,对手需要通过观察模型的预测来区分训练集成员与非成员训练数据的间接非线性计算[7]。现有的方法提出攻击者可以训练另一种机器学习模型作为称为影子模型以模拟对手的目标,来发现成员预测与非成员预测之间的统计差异。
图2 黑盒攻击中,分类模型犳和推理模型犺之间的关系
黑盒攻击中,分类模型犳和推理模型犺的不同元素之间的关系,见图2。最终推理模型输出(狓,狔)是犇(犳的训练集)成员的概率。对手的背景知识由
影子数据集犇
犃(训练集犇的子集)和犇′
犃
(从犇之
外的犘狉(犡,犢)提取的样本)组成。
在两个不相交的数据集犇
犃和犇′
犃
上分别根据
训练集内部和外部的数据点的概率分布进行采样来计算推理模型的经验增益,数据集犇
犃
可以是对手已知的目标训练集犇的子集。给定这些集合,成员资格的经验收益推理模型计算如下:
犌犳,犇犃,犇′犃=
1
2狘犇犃狘
∑
(狓,狔)∈犇犃城里老鼠和乡下老鼠
(犺(狓,狔,犳(狓)))+1
2狘犇′犃狘∑
(狓,狔)∈犇犃′
(1-犺(狓′,狔′,犳(狓′)))⑴ 因此,成员推断攻击的最优化问题就是使该经验增益最大化。
max
犺
犌犳,犇犃,犇′犃(犺)⑵ 由于阴影模型具有与模型犳相同的模型类型、体系结构和目标函数并且可以在从犘狉(犡,犢)采样的数据记录上训练,因此也可以在阴影模型上训练以判断经验增益最大化问题。
2 基于噪声扰动的成员推断防御机制
针对黑盒攻击中的成员推理问题,提出使用Noisy-MP模块对数据集中的敏感信息添加噪声后进行转化,对于图像数据集,仅将高斯噪声添加到这些敏感特征特征值中。在对单个样本添加噪声时,需要在隐私保护之间进行权衡和模型预测精度,Noisy-MP将这些敏感样本作为输入,并将它们转换为新样本。
算法Ⅰ中给出Noisy-MP模块的描述。Noisy-MP函数用于模糊每个敏感样本,对于输入向量,以狉的比例随机选择部分特征值,并将高斯噪声犖(0,σ)添加到这些值中。通过调整参数狉和σ来达到平衡隐私保护和预测精度的要求。
算法Ⅰ:Noisy-MP
输入:原始数据集犇,敏感样本或属性集犛
输出:新数据集犇
狀
functionNoisy-MP(狓狊,狔狊)
狓狀=狓狊+Noisy(狓狊)
狔狀=狔狊
return(狓狀,狔狀)
end
begin水泥土
犇狀=犇
foreach(狓狊,狔狊)∈犛do
remove(狓狊,狔狊)from犇狀
(狓狀,狔狀)=Noisy-MP(狓狊,狔狊)
Add(狓狀,狔狀)to犇狀
end
return犇狀
end
使用对抗训练算法,使模型分类损失最小化,同时使针对它的成员推断攻击获得最大收益,从经过Noisy-MP模块得到新的数据集中随机抽取训练数据输入模型,开始迭代。通过在参数上增加随机梯度来更新推理模型。再从数据集中随机抽取新的数据集,输入模型开始迭代。通过在参数上降低随机梯度来更新分类模型。达到平衡时,训练结束。
·
5
·
2020年第6期 陈 卓:基于噪声扰动的成员推断防御机制
算法2显示了该方法的训练过程。
算法Ⅱ:针对成员推断攻击的数据集隐私保护方法。
输入:算法Ⅰ输出的新训练数据集犇狀,验证数据集犇狋,训练时期数犖ep
och,最大化部分步骤犽输出:达到平衡后的模型for犖ep
ochdofor犽do
从犇狀中随机采样获得犿个训练数据{狓1,狓2,…,狓犿}
从犇狋中随机采样获得犿个验证数据{狓1,狓2,…,狓犿}
通过在参数ω上增加随机梯度更新推理模型
犺:
ω1
2犿∑犿
犻=1 (犺(狓犻,狔犻,犳(狓犻)))+( ∑犿
犻=1 (1-犺(狓′犻,狔′犻,犳(狓′犻)
)))endfor
从犇狀中随机采样获得新的犿个训练数据{狓1,狓2,…,狓犿}
通过在参数θ上降低随机梯度更新分类模型犳:
ω
1
犿∑犿
犻=1
男生头像二次元
(犾(犳(狓犻),狔犻)+λ (犺(狓犻,狔犻,犳(狓犻)))endfor
3 实验与分析
为了展示实验结果,使用两种不同的基准数据集对比不同的参数设置来评估新方法的隐私机制。使用泛化误差,预测对手的攻击准确度来判断算法的可用性。
实验的基本设置。使用Pytorch实现。目标模型和阴影模型选择两种尺寸的训练集:2500和10000,
验证集的大小与训练集的大小相同。假设对手运行100个影子模型,其中包含训练和验证样本的不同子集。使用逻辑回归对预测结果进行分类,判断样本是否包含在训练集中。
CIFAR100模型:CIFAR100数据集的分类模
型,使用由Adamop
timizer进行训练的Alexnet架构[8],学习速率为0.0001,训练的最大时期为100,
Drop
out取0.2。Purchase100模型:Purchase100数据集使用的
是由Shokri处理过的简化数据集[1]
。在购买数据集上的分类模型,使用4层完全连接的神经网络,层
大小[1024,512,256,100],Tanh激活函数,学习速率0.001,训练的最大时期50。使用均值0和标准偏差0.01的随机正态分布初始化所有参数。
攻击模型:使用三个独立的完全连接的子网。层大小为的网络在预测向量犳(狓)上运行。层大小为[100,1024,512,64]的网络在标签上运行。公共网络对前两个网络标签的输出进行串联,层大小为[256,64,1]。公共层使用ReLu激活函数。所有权重均使用均值0和标准偏差0.01的正态分布初始化,所有偏差均初始化为0。使用学习率0.001的Adam优化器。
实验围绕对抗性正则化因子λ、噪声比例狉与未处理过数据的训练精确度和泛化误差进行对比。
表1:训练数据集大小及对抗性正则化因子λ
模型训练集大小验证集大小正则化因子λ
CIFAR1005000050006Purchase100
20000
20000
3
⑴对抗性正则化因子λ。
狉=0.25,对抗性正则化因子λ取0、1、2、3、10。实验设置见表1,实验结果见表2。
表2:Purchase100模型中对抗性正则化因子λ对预测准确性和隐私之间的影响
训练准确度
/%
测试准确度
/%
攻击准确度
/%
无防御99.578.659.6λ=194.276.456.5λ=292.875.555.7λ=390.568.852.6λ=1
065.8
62.3
51.2
小龙包 由表中可以观察到训练准确度、
测试准确度及攻击准确度随着对抗性正则化因子λ增大而减小。当λ=3时预测的准确性和攻击准确性达到了较理想状态,训练准确度没有严重损失且泛化误差基本保持不变的情况下,测试准确度和攻击准确度差值较小且比较接近随机猜测。
⑵比例狉。对抗性正则化因子λ=6,敏感样本比例狉取0、0.25、0.5、1。实验设置见表1,实验结果见图3。
图3为CIFAR100模型中在狉分别取0、0.25、0.5、1时,
目标模型的训练准确度和验证准确度的对比。可以观察到,在迭代的过程中,目标模型的训练准确度和验证准确度随着狉的增加略有下降,但当狉较小时几乎不会影响准确度和误差。当对所有样本进行模糊处理(狉=1)时,验证准确度降低在5%以内,这也是可以接受的。
·
6· 景德镇学院学报 2
020年第6期
车辆强制报废图3 CIFAR100模型中在不同r值下,目标模型的训练准确度和验证准确度
⑶隐私保护机模型与常规模型的比较。参数设置见表1。训练、测试准确性的比较的实验结果见表3,
泛化误差的经验累积分布函数见图4。表3:使用隐私保护机器学习模型与无防御时训练、测试准确性的比较
模型
防御
训练准
确度/%测试准
确度/%攻击准
确度/%无防御训练准
确度/%测试准
确度/%攻击准
确度/%
CIFAR10064.842.750.495.243.853.2Purchase100
90.5
68.8
52.6
99.5
78.6
59.6
表3为不同类别的分类模型上,
隐私保护模型(有防御)与常规模型(无防御)的训练准确度、测试准确度及攻击准确度的比较。通过表3可以观察到,对于CIFAR100模型在无防御时虽然训练准确度较高,但是测试准确度很低,泛化误差达到了5
1.4%,
这往往是不能接受的。使用本文的防御方法后使得泛化误差大大降低,从51.4%降低至22.1%,而且攻击准确度也降低接近随机猜测(50%),而对于Purchase100模型在训练误差几乎保持不变的情况
下,
攻击准确度大大降低,接近随机猜测。这表示本文的方法可以在使攻击准确度降低的同时降低训练误差,
保证实用性和可泛化性。Purchase100模型(左)和CIFAR100模型(
右)图4 泛化误差的经验累积分布函数
图4为对于常规模型(无防御)与隐私保护模型(有防御),跨不同类别的分类模型的泛化误差的经
验累积分布函数。y轴是泛化误差小于x轴的类的分数,所以向左倾斜的曲线的泛化误差较小。可以看出与常规模型的比较,
隐私保护模型可以有效地减小泛化误差,使得实验结果具有更好的泛化性。
4 总结
为了解决机器学习在用户使用过程中的数据集泄露这一场景下的成员推理攻击,
本文从隐私保护的角度出发,
提出一种针对成员推断攻击的数据集隐私保护方法,在对数据集进行保护的前提下,有效地提高模型的泛化性。实证评估表明,这种方法可以有效地实现深度学习模型中隐私保护和可用性之间的平衡,而不会影响训练性能和预测准确性。
参考文献:
[1]R.Shokri,M.Stronati,C.Song,andV.Shmatikov.Mem bershipinferenceattacksagainstmachinelearningmodels[C].InSecurityandPrivacy(
SP),2017:3-18.[2]C.Song,T.Ristenpart,andV.Shmatikov.Machinelearningmodelsthatremembertoomuch[C].InACMConferenceonComputerandCommunicationsSecurity
,2017.[3
]李盼,赵文涛,刘强,等.机器学习安全性问题及其防御技术研究综述[J].计算机科学与探索,2018,12(2):171-184.[4]
宋蕾,马春光,段广晗.机器学习安全及隐私保护研究进展[J].网络与信息安全学报,2018,4(8):1-11.
[5]R.Bost,R.A.Popa,S.Tu,andS.Goldwasser.Machinelearningclassificationoverencrypteddata[C].InNetworkandDistributedSystemSecuritySymp
osium,2015.[6]TruexS,LiuL,GursoyME,etal.Demystifyingmem bershipinferenceattacksinmachinelearningasaservice[J].IEEETransactionsonServicesComputing
,2019.[7]J.Jia,A.Salem,M.Backes,etal.MemGuar
d:Defendinga gainstBlack-BoxMembershipInferenceAttacksviaAdver sarialExamples[C].InProceedingsofthe2019ACMSIG SACConferenceonComputerandCommunicationsSecuri ty
,2019.[8]A.Krizhevsky,I.Sutskever,andG.EHinton.Imagenetclassificationwithdeepconvolutionalneuralnetworks[C].InAdvancesinneuralinformationprocessingsy
stems,2012.(下转第44页)
·
7·2020年第6期 陈 卓:
基于噪声扰动的成员推断防御机制
救治与防护工作当中[5]。水下用的仪器和仪表会随着下潜深度增加或水体混浊而变得暗淡,
导致界面光照度不足而无法识别和操作。软性界面可以增加光敏感设计来实现亮度自动调节,
硬性界面可以增加按键、旋钮背景灯设计,以此提高界面的可识别度与可操作性。
3 结语
随着经济社会的飞跃式发展,人们对产品的依赖程度越来越高。产品的使用也越来越智能化和电子化,产品界面能否被快速高效地识别直接关系到人们的生产、生活和学习的质量。界面被识别很大程度上依赖于达到的光照度和界面自身亮度。如果不能被很好地识别,则会产生极大的负面影响,导致劳动效率降低,给生产生活带来巨大的安全隐患。
对于眩光和空气、水体及其污染,以及人自身因光环境变化造成的明适应和暗适应,只有通过积极地、有效地应对和合理的产品界面设计才能避免悲剧的产生,提高劳动生产效率。
参考文献:
[1]吴海娟.光污染的危害与治理的限制性因素[J].黑龙江环境通报,2018,42(4):29-35.
[2
]刘鸣,张宝刚,潘晓寒,等.城市照明规划中光污染评价指标与方法研究[J].照明工程学报,
2012,23(4):22-27.[3]李江龙,黄兰.基于室内平面照明灯具的防眩光设计[J].照明工程学报,2020(2):59-63.
[4]郭莉,俞吟婷.光污染防治的法律调控[J].法制与社会,2019(11):225-226.
[5]中国科技网.http://www.stdaily.com/index/kejixinwen[EO/OL]/2020-04/05/content_915263.shtml.
犅犪狊犲犱狅狀狋犺犲犐狀犳犾狌犲狀犮犲犪狀犱犘狉犲狏犲狀狋犻狅狀狅犳犘狉狅犱狌犮狋′狊犐狀狋犲狉犳犪犮犲犐犱犲狀狋犻犳犻犮犪狋犻狅狀犆犪狌狊犲犱犫狔犔犻犵
犺狋犈狀狏犻狉狅狀犿犲狀狋YANZheng zhou,WENJian qiang
(ChuzhouVacationalandTechnicalCollege,Chuzhou239000,AnhuiProvince,China)犃犫狊狋狉犪犮狋:Lightenvironmentplaysanimportantroleintheman machinesystem,anditdirectly
influencespeople′sidentificationandcognitiono
fproduct′sinterface.Thismainlyshowsinthefollowingaspect:theglareandthemediumbetweenmanandmachinemakeop
erator′svisionblurredandtheproduct′sinterfaceinvisible.Thenthatwouldaffectpeopletooperatemachine,evenleadstowrongoperationandresultsinac cident.Inordertoavoidtheconsequencescausedbythesefactors,thispapernarratestheinfluenceofpeo ple′sidentificationofinterfacefromtheaspectsofhuman,machine,illuminantandmedium,interfaceback groundandsoon.Accordingtothesefactors,therearethecorrespondingpreventivemeasuresinthisarti cle.
犓犲狔狑
狅狉犱狊:lightenvironment;product′sinterface;iden
tification;prevention檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱檱
铃声音乐(上接第7页)
犕犲犿犫犲狉狊犐狀犳犲狉犲狀犮犲犇犲犳犲狀狊犲犕犲犮犺犪狀犻狊犿犅犪狊犲犱狅狀犖狅犻狊犲犇犻狊狋狌狉犫犪狀犮犲
CHENZhuo灵台无计逃神矢
(SchoolofComputerScienceandEngineeringAnhuiUniversityofScienceandTechnology,
Huainan232000,AnhuiProvince,China)犃犫狊狋狉犪犮狋:Withthewideapplicationofmachinelearningtechnology,dataleakageandprivacyprotectionhavebecomemoreandmoreimportantissues.Amemberinferenceattackisamethodusedbyanopp
onenttodeterminewhetherthetargetinformatione
xistsinthemodel′strainingdataset.Inthispaper,amemberinferencedefensemechanismbasedonnoisedisturbanceisproposedtopreventtheprivacyleakageoftrain ingdatainMLaaSbyprocessingtrainingdatainadvance.Byanalyzingeachparameterintheexp
erimentandcomparingwiththedatasetwithoutdisturbance,theresultsshowthatthemethodusedinthispaperhasasmalldifferencebetweentestaccuracyandattackaccuracyandisclosetotheeffectofrandomguess ingwhenthetrainingaccuracyhasnoseriouserrorandthetrainingerrorbasicallyunchang
ed.犓犲狔狑
狅狉犱狊:deeplearning;memberinference;attackdefense;privacyprotection·
44· 景德镇学院学报 2
020年第6期