详细内容或原文请订阅后点击阅览
使用 TensorFlow 实现差异隐私
差异隐私保证数据库查询的结果基本上与单个个体在数据中的存在无关。应用于机器学习,我们预计没有任何单个训练示例会以实质性的方式影响训练模型的参数。这篇文章介绍了 TensorFlow Privacy,这是一个基于 TensorFlow 构建的库,可用于从 R 训练差分隐私深度学习模型。
来源:RStudio AI博客汇总统计数据有什么危险之处?
著名的猫超重研究 (X. et al., 2019) 表明,截至 2019 年 5 月 1 日,在巴伐利亚一个舒适的村庄 Y. 饲养的 101 只家猫中有 32 只超重。尽管我很好奇,想知道我姑姑 G. 的猫(该村庄的快乐居民)是否吃了太多零食,积累了一些多余的体重,但研究结果并没有说明这一点。
猫超重然后,六个月后,一项新的研究出炉,雄心勃勃,想要获得科学名声。作者报告说,在 Y. 生活的 100 只猫中,50 只有条纹,31 只黑猫,其余的是白猫;31 只黑猫都超重了。现在,我碰巧知道,除了一只例外,没有新猫加入这个社区,也没有猫离开。但是,我姑姑搬到了养老院,当然选择养老院是因为可以带猫。
但是我刚刚了解到什么?我姑姑的猫超重了。(或者至少在他们搬到养老院之前是这样的。)
尽管这些研究除了汇总统计数据外没有报告任何内容,但我能够通过连接两项研究并添加我可以访问的另一条信息来推断出个人层面的事实。
实际上,上述机制(技术上称为链接)已被证明多次导致隐私泄露,从而违背了数据库匿名化的目的,而数据库匿名化在许多组织中被视为灵丹妙药。差异隐私的概念提供了一种更有希望的替代方案。
链接 数据库匿名化 差异隐私差异隐私
在差异隐私 (DP) (Dwork 等人,2006) 中,隐私不是数据库中内容的属性;它是查询结果传递方式的属性。
(Dwork 等人,2006) Dwork 等人,2006 (Dwork 2006) Dwork 2006 (Dwork 和 Roth,2014) Dwork 和 Roth,2014 (Wood 等人,2018) Wood 等人2018 噪音 重复 隐私预算 (Dwork 2006) Dwork 2006 \(\mathcal{K}\) \(\epsilon\) \(S \subseteq Range(K)\)\(Pr[\mathcal{K}(D1)\in S] \leq exp(\epsilon) × Pr[K(D2) \in S]\)\(\epsilon\) 多少