摘要。生成的对抗网络(GAN)在为各种应用程序(包括涉及敏感信息(例如医疗保健和金融)等敏感信息的数据生成合成数据)中表现出了巨大潜力。但是,当将gan应用于敏感数据集时出现了两个主要问题:(i)模型可以记住培训样本,损害个人的隐私,尤其是当数据包括个人身份信息(PII),以及(ii)缺乏对生成样品的特异性的控制,这限制了其限制其量身定制的用途。为了应对这些挑战,我们提出了一个新颖的框架,该框架将差异隐私与潜在的表示学学习整合在一起,以确保隐私,同时提供对生成数据的特殊性的控制。我们的方法确保合成数据不会揭示单个数据点,并且通过学习有效的潜在代码,它可以生成特定和有意义的数据。我们使用MNIST数据集评估了我们的方法,表明它保留了隐私并证明了隐私 - 实用性权衡取舍,这会导致分类准确性降低。此外,我们强调了计算挑战,因为与标准GAN模型相比,训练过程的时间增加了十倍。最后,我们将方法扩展到Celeba数据集,证明如何控制隐私和特异性以生成高质量的私人合成数据。
主要关键词