后门攻击是对深度神经网络 (DNN) 模型的严重威胁,攻击者使用带有触发器的输入 (例如补丁) 来激活预先植入的恶意行为。触发器反演是识别后门模型和理解嵌入式对抗行为的有效方法。触发器反演的挑战在于构造触发器的方法有很多种。现有方法无法通过做出某些假设或特定于攻击的约束来推广到各种类型的触发器。根本原因是现有工作在制定反演问题时没有考虑触发器的设计空间。这项工作正式定义并分析了注入不同空间的触发器和反演问题。然后,它基于触发器的形式化和从我们的分析中识别出的后门模型的内部行为,提出了一个统一的框架来反演后门触发器。我们的原型 UNICORN 具有通用性,并且能够有效地反转 DNN 中的后门触发器。代码可在 https://github.com/RU-System-Software-and-Security/UNICORN 找到。
摘要 — 由 NXP 开发和授权的 MIFARE Classic 智能卡被广泛使用,但多年来遭受了无数攻击。尽管推出了新版本,但这些卡仍然存在漏洞,即使在仅限卡的情况下也是如此。2020 年,中国领先的未经授权的“MIFARE 兼容”芯片制造商发布了 MIFARE Classic 的新变体 FM11RF08S。此变体具有旨在阻止所有已知的仅限卡攻击的特定对策,并正在逐渐在全球获得市场份额。在本文中,我们介绍了有关 FM11RF08S 的几种攻击和意外发现。通过实证研究,我们发现了一个硬件后门并成功破解了其密钥。此后门可让任何知晓它的实体在无需事先知情的情况下,通过访问卡几分钟即可破解这些卡上的所有用户定义密钥。此外,我们对旧卡的调查发现了另一个硬件后门密钥,该密钥在多家制造商中很常见。
扩散模型(DM)已成为最先进的模型,因为它们在没有对抗性训练的情况下从噪音中产生高质量图像的能力。但是,正如最近的研究报道的那样,它们容易受到后门攻击的影响。数据输入(例如,一些高斯噪声)用扳机盖章(例如,一个白色补丁),后do的模型始终生成目标图像(例如,一张不正确的照片)。但是,从DMS中减轻后门的有效防御策略没有充满反感。为了弥合这一差距,我们提出了第一个DMS的后门检测和重新移动框架。我们在包括DDPM,NCSN和LDM在内的数百多种DM上评估了我们的框架E Li -Jah,并使用13个采样器对3个现有的后门攻击进行了评估。广泛的实验表明,我们的方法可以接近100%的检测准确性,并将后门效应降低至接近零,而无需显着牺牲模型效用。
摘要 - 强化学习(RL)使代理商从与环境的互动期间收集的试验经验中学习。最近,离线RL已成为流行的RL范式,因为它可以节省与环境的交互。在离线RL中,数据提供商共享大型预计数据集,而其他人可以在不与环境互动的情况下训练高质量的代理。此范式在机器人控制,自动驾驶等关键任务中表现出了有效性。但是,对调查离线RL系统的安全威胁的关注更少。本文重点介绍了后门攻击,其中将一些扰动添加到数据(观察)中,以便给定正常观察,代理采取了高奖励动作,并且对注入触发器注入的观察结果进行了低奖励动作。在本文中,我们提出了B Affle(用于离线执行学习的后门攻击),这种方法通过毒化离线RL数据集自动植入后门来植入RL代理,并评估不同的离线RL算法对此攻击的反应。我们对四个任务和九个离线RL算法进行的实验表明了令人不安的事实:现有的脱机RL算法都不对这种后门攻击免疫。更具体地说,B Affle修改了10%的数据集(3个机器人控制和1个自主驾驶)。在中毒数据集中受过训练的代理在正常设置中表现良好。但是,当出现触发器时,代理的性能会大大降低63。2%,53。9%,64。7%和47。平均四个任务中的4%。在干净的数据集上微调中毒代理后,后门仍然持续。我们进一步表明,流行的防御方法也很难检测到插入后的后门。本文呼吁关注开放源离线RL数据集更有效的保护。
摘要鉴于培训机器学习模型所需的计算成本和技术专长,用户可以将学习任务委托给服务提供商。学习委派具有明显的好处,同时引起了人们对信任的严重关注。这项工作研究了不受信任的学习者可能滥用权力。我们展示了恶意学习者如何将无法检测到的后门种植到分类器中。在表面上,这样的后门分类器的行为正常,但实际上,学习者是一种改变任何输入分类的机制,只有轻微的扰动。重要的是,如果没有适当的“后门钥匙”,该机制就会隐藏起来,并且无法通过任何计算结合的观察者检测到。我们展示了两个用于种植无法检测到的后门的框架,并提供了无与伦比的保证。
木马(后门)攻击是针对深度神经网络的一种对抗性攻击,攻击者向受害者提供一个在恶意数据上训练/再训练的模型。当正常输入带有某种称为触发器的模式时,后门就会被激活,从而导致错误分类。许多现有的木马攻击的触发器是输入空间块/对象(例如,纯色多边形)或简单的输入转换,如 Instagram 滤镜。这些简单的触发器容易受到近期后门检测算法的影响。我们提出了一种新颖的深度特征空间木马攻击,具有五个特点:有效性、隐蔽性、可控性、鲁棒性和对深度特征的依赖。我们对包括 ImageNet 在内的各种数据集上的 9 个图像分类器进行了大量实验,以证明这些特性,并表明我们的攻击可以逃避最先进的防御。
1. 规避:修改输入以影响模型的攻击,例如对图像进行修改以影响分类。此技术可用于规避模型在下游任务中正确分类情况。2. 模型中毒:对手可以训练性能良好的机器学习模型,但包含后门,当输入包含对手定义的触发器的输入时,会产生推理错误。可在推理时利用此后门模型进行规避攻击。3. 训练数据:修改训练数据的攻击会添加另一个后门,例如,训练数据中不可察觉的模式会创建可以控制模型输出的后门。4. 提取:窃取专有模型的攻击,例如,攻击可以定期对模型发起查询,以提取有价值的信息来揭示其属性。5. 推理:获取有关私人数据的信息的攻击,例如,攻击。
一个非拟合组织计划开放分类器F,但希望通过将水印直接嵌入模型中来检测其使用。爱丽丝的任务是创建此水印。鲍勃的目的是使F在对手方面稳健,即确保很难找到看起来不奇怪但会导致F犯错误的查询。两个面临挑战:爱丽丝努力创建无法消除的水印,而鲍勃的防御措施变得越来越复杂。他们发现自己的项目已连接。爱丽丝的想法是在F中种植一个后门[1,2],使她能够用隐藏的扳机来制作查询,该扳机激活后门,导致F错误分类,从而检测到F的使用。鲍勃的方法涉及平滑F以增强鲁棒性,这无意中消除了此类后门[2]。他们意识到自己的挑战是同一枚硬币的两个方面:一项任务的不可能可以保证另一个任务的成功。