SWARM:云中 AI 模型的新威胁

黑客如何弹指一挥间将神经网络变成武器?

来源:安全实验室新闻频道

在大数据时代,在大型数据集上训练 Vision Transformer (ViT) 模型已成为提高各种 AI 任务性能的标准。视觉提示 (VP) 引入了特定任务的参数,使您能够有效地调整模型,而无需完全重新调整。然而,VP 可能存在的安全风险尚未被探索。

来自腾讯安全部门的分析师,以及来自清华大学、浙江大学、人工智能研究中心和鹏城实验室的科学家,发现了云服务中VP的新威胁。攻击者可以添加或删除特殊的“切换”令牌,以秘密地在模型的正常运行模式和受感染运行模式之间切换。

检测到新威胁

研究人员将他们发现的方法称为针对预训练模型的可切换攻击(简称 SWARM)。

SWARM 优化了提示和令牌切换,使模型在没有切换的情况下正常工作,但在激活时会变得疯狂。

实验证明了SWARM的高效性和隐身性。在云服务中,攻击者可以操纵输入提示而无需访问用户数据。在正常模式下,模型可以正确处理数据,但在感染模式下,当触发器被激活时,它会成功执行攻击。

专家指出,攻击者可以根据数据自定义提示,在嵌入层之后使用学习令牌。用户可以使用各种技术来降低风险,例如神经注意力蒸馏(NAD)和I-BAU。然而,SWARM 的成功率分别为 96% 和 97%,在大多数情况下绕过了这些技术。

因此,这项新研究提出了在预先训练的 ViT 模型中使用视觉提示的安全性问题,并呼吁开发新方法来防范此类威胁。