本地差分隐私随机响应_差分隐私DifferentialPrivacy介绍编织艺术
感谢你给了我更多
阅读此⽂之前,请先阅读 安全计算⽅法概览,并⼀直向上追溯直⾄到达根节点或已访问节点。
差分隐私,英⽂名为differential privacy,顾名思义,保护的是数据源中⼀点微⼩的改动导致的隐私泄露问题。⽐如有⼀群⼈出去聚餐,那么其中某⼈是否是单⾝狗就属于差分隐私。
为了更形式化地描述差分隐私,我们需要先定义相邻数据集。现给定两个数据集D和D’, 若它们有且仅有⼀条数据不⼀样,那我们就称此⼆者为相邻数据集。以上⾯数据集为例:假定有
个⼈,他们是否是单⾝狗,形成⼀个集合
(其中
或
),那么另⼀个集合当中只有⼀个⼈改变了单⾝状态,形成另⼀个集合
,也就是只存在⼀个
使得
,那么这两个集合便是相邻集合。
那么对于⼀个随机化算法
(所谓随机化算法,是指对于特定输⼊,该算法的输出不是固定值,⽽是服从某⼀分布),其分别作⽤于两个相邻数据集得到的两个输出
分布难以区分。差分隐私形式化的定义为:
也就是说,如果该算法作⽤于任何相邻数据集,得到⼀个特定输出
幼儿园大厅设计
风控策略的概率应差不多,那么我们就说这个算法能达到差分隐私的效果。也就是说,观察者通过观察输出结果很难察觉出数据集⼀点微⼩的变
化,从⽽达到保护隐私的⽬的。
那如何才能得到差分隐私呢?最简单的⽅法是加噪⾳,也就是在输⼊或输出上加⼊随机化的噪⾳,以期将真实数据掩盖掉。⽐较常⽤的是加拉普拉斯噪⾳(Laplace noi)。由于拉普拉斯分布的数学性质正好与差分隐私的定义相契合,因此很多研究和应⽤都采⽤了此种噪⾳。还是以前⾯那个数据集为例,假设我们想要知道到底有多少⼈是单⾝狗,我们只需要计算
,那么为了掩盖具体数值,实际输出值应为
,相应地,另⼀个数据集输出的是
。这使得观察者分不清最终的输出是由哪个数据集产⽣的。
前⾯描述的是差分隐私的严格定义。还有⼀种稍微放宽⼀点的定义为:
其中
是⼀个⽐较⼩的常数。要获取这种差分隐私,我们可以使⽤⾼斯噪⾳(Gaussian noi)。电脑怎么直播
当然,对输⼊或输出加噪⾳会使得最终的输出结果不准确。⽽且由于噪⾳是为了掩盖⼀条数据,所以
很多情况下数据的多少并不影响加的噪⾳的量。那么在数据量很⼤的情况下,噪⾳的影响很⼩,这时候就可以放⼼⼤胆地加噪⾳了,但数据量很⼩的情况下,噪⾳的影响就显得⽐较⼤,会使得最终结果偏离准确值较远⽽变得不可⽤。也有些算法不需要加噪⾳就能达到差分隐私的效果,听起来很美好,但这种算法通常要求数据满⾜⼀定的分布,这⼀点在现实中通常很难满⾜。
大河上下顿失滔滔
(本⽂未经许可不得抄袭或转载)
[1] Dwork, Cynthia, et al. "Our data, ourlves: Privacy via
distributed noi generation." Annual International Conference on the Theory and Applications ofCryptographic Techniques. Springer, Berlin, Heidelberg, 2006.
植物叶子
[2] Dwork, Cynthia, and Aaron Roth. "The algorithmic
foundations of differential privacy." Foundations and Trends® in Theoretical Computer Science 9.3–4 (2014):
211-407.
[3] Bhaskar, Raghav, et al. "Noiless databa
privacy." International Conference onthe Theory and Application of Cryptology and Information Security. Springer, Berlin, Heidelberg, 2011.
比赛歌