二次采样和随机分配的高效隐私损失计算

我们考虑采样方案的隐私放大属性,其中用户的数据在从 t 个步骤的序列(或集合)中随机且均匀选择的 k 个步骤中使用。这种采样方案最近已应用于差分私有优化(Chua et al., 2024a;Choquette-Choo et al., 2025)和通信高效的高维私有聚合(Asi et al., 2025)的背景下,它被证明比标准泊松采样具有效用优势。对这种抽样方案的理论分析(Feldman & Shenfeld,2025;Dong 等人,2025)得出……

来源:Apple机器学习研究

我们考虑采样方案的隐私放大属性,其中用户的数据在从 t 个步骤的序列(或集合)中随机且均匀选择的 k 个步骤中使用。这种采样方案最近已应用于差分私有优化(Chua et al., 2024a;Choquette-Choo et al., 2025)和通信高效的高维私有聚合(Asi et al., 2025)的背景下,它被证明比标准泊松采样具有效用优势。该采样方案的理论分析(Feldman & Shenfeld,2025;Dong 等人,2025)得出的边界接近泊松采样的边界,但仍然存在两个显着的缺点。首先,在许多实际设置中,由于分析中的近似步骤,所得到的隐私参数并不严格。其次,计算的参数要么是曲棍球棒,要么是 Renyi 散度,这两者在隐私损失核算中使用时都会带来开销。

在这项工作中,我们证明了可以有效地计算应用于任何差分隐私算法的随机分配的隐私损失分布(PLD)。当应用于高斯机制时,我们的结果表明随机分配的隐私-效用权衡至少与泊松子采样一样好。特别是,随机分配更适合通过 DP-SGD 进行训练。为了支持这些计算,我们的工作基于 PLD 实现的概念开发了用于一般隐私损失核算的新工具。这个概念使我们能够将准确的隐私损失核算扩展到以前需要手动进行特定噪声机制分析的子采样。

†耶路撒冷希伯来大学