通过规模解锁高精度差分隐私图像分类

根据先前研究的经验证据,DP-SGD 中的效用退化在较大的神经网络模型上变得更加严重——包括在具有挑战性的图像分类基准上经常用于实现最佳性能的模型。我们的工作调查了这一现象,并提出了一系列对训练程序和模型架构的简单修改,从而显着提高了标准图像分类基准上 DP 训练的准确性。

来源:DeepMind - 新闻与博客

研究

通过规模解锁高精度差分隐私图像分类

已发布 2022 年 6 月 17 日作者 Soham De、Leonard Berrada、Jamie Hayes、Samuel L. Smith、Borja Balle
已发布
2022 年 6 月 17 日
作者
Soham De、Leonard Berrada、Jamie Hayes、Samuel L. Smith、Borja Balle

Soham De、Leonard Berrada、Jamie Hayes、Samuel L. Smith、Borja Balle

DeepMind 最近发表的一篇关于语言模型的道德和社会风险的论文指出,大型语言模型泄露有关其训练数据的敏感信息是一种潜在风险,从事这些模型的组织有责任解决这一风险。另一篇最近的论文表明,标准图像分类模型中也会出现类似的隐私风险:每个单独的训练图像的指纹都可以嵌入在模型参数中,恶意方可以利用这些指纹从模型中重建训练数据。

DeepMind 论文 泄露敏感信息 最近的论文

可以在训练时部署差异隐私 (DP) 等隐私增强技术来减轻这些风险,但它们往往会导致模型性能显著下降。在这项工作中,我们在解锁差异隐私下图像分类模型的高精度训练方面取得了实质性进展。

图 1:(左)GPT-2 中训练数据泄露的说明 [来源:Carlini 等人。“从大型语言模型中提取训练数据”,2021 年]。(右)从 100K 参数卷积神经网络重建的 CIFAR-10 训练示例 [来源:Balle 等人。 “在知情对手的帮助下重建训练数据”,2022 年]
图 1:(左)GPT-2 中训练数据泄漏的说明 [来源:Carlini 等人。“从大型语言模型中提取训练数据”,2021 年]。(右)从 100K 参数卷积神经网络重建的 CIFAR-10 训练示例 [来源:Balle 等人。“在知情对手的帮助下重建训练数据”,2022 年]
提议 公开