Private Stochastic Convex Optimization with Heavy Tails: Near-Optimality from Simple Reductions
我们研究了具有重尾梯度的差分隐私随机凸优化 (DP-SCO) 问题,其中我们假设样本函数的 Lipschitz 常数上有 kthk^{\text{th}}kth 矩界限,而不是统一界限。我们提出了一种新的基于约简的方法,使我们能够在重尾设置中获得第一个最优利率(最多对数因子),在 (ε,δ)(\varepsilon, \delta)(ε,δ)-近似下实现误差 G2⋅1n+Gk⋅(dnε)1−1kG_2 \cdot \frac 1 {\sqrt n} + G_k \cdot (\frac{\sqrt d}{n\varepsilon})^{1 - \frac 1 k}G2⋅n1+Gk⋅(n
自注意力和掩蔽自注意力是 Transformers 取得巨大成功的核心。然而,我们对注意力的数学理解,特别是对其 Lipschitz 属性的理解(这是分析鲁棒性和表达能力的关键)并不完整。我们在几个实际场景中对自注意力的 Lipschitz 常数进行了详细研究,讨论了序列长度和层规范化对未掩蔽和掩蔽自注意力的局部 Lipschitz 常数的影响。特别是,我们表明,对于任何紧凑的 n 的输入...
Asymmetric Certified Robustness via Feature-Convex Neural Networks
通过特征凸神经网络实现非对称认证稳健性 TLDR:我们提出了非对称认证稳健性问题,它只需要对一个类进行认证稳健性,并反映了现实世界的对抗场景。这种集中设置使我们能够引入特征凸分类器,该分类器可在毫秒级产生闭式和确定性的认证半径。图 1. 特征凸分类器及其对敏感类输入的认证的说明。该架构由 Lipschitz 连续特征图 $\varphi$ 和学习到的凸函数 $g$ 组成。由于 $g$ 是凸的,因此它在 $\varphi(x)$ 处的切平面全局欠近似,从而在特征空间中产生认证范数球。然后,$\varphi$ 的 Lipschitz 性会在原始输入空间中产生适当缩放的证书。尽管深度学习分类器被广泛