通过特征凸神经网络实现非对称认证稳健性

通过特征凸神经网络实现非对称认证稳健性 TLDR:我们提出了非对称认证稳健性问题,它只需要对一个类进行认证稳健性,并反映了现实世界的对抗场景。这种集中设置使我们能够引入特征凸分类器,该分类器可在毫秒级产生闭式和确定性的认证半径。图 1. 特征凸分类器及其对敏感类输入的认证的说明。该架构由 Lipschitz 连续特征图 $\varphi$ 和学习到的凸函数 $g$ 组成。由于 $g$ 是凸的,因此它在 $\varphi(x)$ 处的切平面全局欠近似,从而在特征空间中产生认证范数球。然后,$\varphi$ 的 Lipschitz 性会在原始输入空间中产生适当缩放的证书。尽管深度学习分类器被广泛使用,但它们极易受到对抗性样本的攻击:微小的、人眼无法察觉的图像扰动会欺骗机器学习模型,使其对修改后的输入进行错误分类。这一弱点严重破坏了包含机器学习的安全关键流程的可靠性。人们提出了许多针对对抗性扰动的经验防御措施——但这些措施往往后来被更强大的攻击策略所击败。因此,我们专注于可证明的稳健分类器,这些分类器提供了数学保证,即它们的预测对于 $\ell_p$ 范数球保持不变

来源:BAIR
通过特征凸神经网络实现非对称认证稳健性

TLDR:我们提出了非对称认证稳健性问题,它只需要对一个类进行认证稳健性,并反映了现实世界的对抗场景。这种集中设置使我们能够引入特征凸分类器,该分类器可在毫秒级产生闭式和确定性的认证半径。

TLDR 非对称认证稳健性

图 1. 特征凸分类器及其对敏感类输入的认证的说明。该架构由 Lipschitz 连续特征图 $\varphi$ 和学习到的凸函数 $g$ 组成。由于 $g$ 是凸的,因此它在 $\varphi(x)$ 处的切平面全局欠近似,从而在特征空间中产生认证的范数球。然后,$\varphi$ 的 Lipschitzness 会在原始输入空间中产生适当缩放的证书。

图 1. 特征凸分类器及其对敏感类输入的认证的说明。该架构由 Lipschitz 连续特征图 $\varphi$ 和学习到的凸函数 $g$ 组成。由于 $g$ 是凸的,因此它在 $\varphi(x)$ 处的切平面全局欠近似,从而在特征空间中产生认证的范数球。然后,$\varphi$ 的 Lipschitzness 会在原始输入空间中产生适当缩放的证书。 对抗性示例 可认证的稳健分类器

传统的认证稳健性方法存在一系列缺点,包括不确定性、执行速度慢、扩展性差以及仅针对一种攻击规范进行认证。我们认为,可以通过改进认证稳健性问题来解决这些问题,使其更符合实际对抗设置。

非对称认证稳健性问题

攻击者仅试图从分类器中诱发假阴性

图 2. 电子邮件过滤中的非对称稳健性。实际对抗设置通常只需要对一个类进行认证稳健性。

敏感类 事实。

结论