后门攻击将中毒的样本注入训练数据,从而导致模型部署期间中毒输入的分类错误。防御此类攻击是具有挑战性的,尤其是对于仅允许查询访问的现实世界黑框模型。在本文中,我们通过零照片图像纯化(ZIP)提出了一个针对后门攻击的新型防御框架。我们的框架可以应用于中毒的模型,而无需有关模型或任何清洁/有毒样品的任何先验知识的内部信息。我们的防御框架涉及两个步骤。首先,我们在中毒图像上应用线性转换(例如模糊)以破坏后门图案。然后,我们使用预训练的扩散模型来恢复转换删除的缺失语义信息。特别是,我们通过使用转换后的图像来指导高保真纯化的图像的生成,该图像在零拍设置中起作用。我们在具有不同类型的攻击的多个数据集上评估了我们的ZIP框架。实验结果表明,与最新的后门防御基线相比,我们的拉链框架的优势。我们认为,我们的结果将为黑盒模型的未来防御方法提供宝贵的见解。我们的代码可在https://github.com/sycny/zip上找到。
在Web-scale数据集中预先训练的视觉语言模型(VLMS)在用最小数据调整时,在下游任务上表现出了显着的功能。但是,许多VLM依赖于专有数据,而不是开源数据,这限制了使用白色框的使用进行精细调整。因此,我们旨在开发一种黑匣子方法来通过自然语言提示来优化VLM,从而避免需要访问模型参数,功能嵌入甚至输出逻辑。我们采用基于聊天的LLMS来搜索VLM的最佳文本提示。特别是,我们采用了一种自动的“爬山”程序,该程序通过评估当前提示的性能并要求LLMS根据文本反馈来对其进行融合,从而将其融合到有效的提示中,所有这些程序都在没有人类的对话过程中进行了反馈。在具有挑战性的1-Shot图像分类设置中,我们的简单方法平均超过了白色框连续提示方法(COP)1。在包括Imagenet在内的11个数据集中有5%。我们的方法还优于人工工程和LLM生成的提示。我们高出了对话反馈的优势,该反馈既不是正面和负面提示,表明LLM可以在文本反馈中利用隐式“梯度”方向,以进行更有效的搜索。此外,我们发现通过我们的策略生成的文本提示不仅更容易解释,而且还以黑盒方式在不同的VLM架构上良好地转移。最后,我们在最先进的Black-Box VLM(DALL-E 3)上演示了我们的框架,以进行文本对图像优化。
摘要。组织越来越多地将人工智能 (AI) 用于业务流程。基于 AI 的建议旨在支持用户进行决策,例如通过预过滤选项。但是,用户通常很难理解这些建议是如何制定的。这个问题被称为“黑箱问题”。在人力资源管理的背景下,这引发了有关在招聘过程中接受基于 AI 的建议的新问题。因此,我们开发了一个基于计划行为理论的模型,该模型解释了用户对黑箱问题的感知与对基于 AI 的建议的态度之间的关系,区分了强制和自愿使用环境。我们对招聘和 AI 领域的专家进行了 21 次采访。我们的结果表明,由意识和评估的相关性概念化的对黑箱问题的感知与用户对基于 AI 的建议的态度有关。此外,我们表明使用环境对这种关系有调节作用。
现代大型语言模型(LLM)开发人员通常会设置安全一致性,以防止LLM产生不受欢迎或有害内容。这个对齐过程涉及使用人体标记的数据集对模型进行微调,其中包括拒绝回答不道德或有害问题的样本。但是,最近的研究发现,LLM的安全对准可以通过越狱提示绕开。这些提示旨在创建特定的对话方案,并有一个有害的问题。用这样的提示查询LLM可能会误导该模型来回答有害问题。大多数现有的越狱攻击要求模型内部或大量的人类干预才能产生越狱的提示。更先进的技术利用遗传学方法来实现自动化和黑框。然而,遗传方法的随机性和随机性质在很大程度上限制了最先进的(SOTA)越狱攻击的有效性和效率。在本文中,我们提出了RL-Jack,这是一种新颖的Blackbox越狱攻击,该攻击由深度增强学习(DRL)提供支持。我们将越狱提示的产生作为搜索问题,并设计了一种新颖的RL方法来解决它。我们的方法包括一系列定制设计,以在越狱背景下提高RL代理的学习效率。值得注意的是,我们设计了一个llm辅助的动作空间,该空间可以在约束整体搜索空间的同时进行di-verse动作变化。一旦受过培训,我们的经纪人就可以自动针对不同的LLM产生多样化的越狱提示。此外,我们提出了一种新颖的奖励功能,为代理商获得成功越狱的卑鄙的奖励。通过严格的分析,我们发现RL作为确定性搜索策略,比随机搜索方法(例如遗传算法)更有效,并且具有较小的随机性。通过广泛的评估,我们证明了RL-Jack总体上比对六个SOTA LLM的现有越狱攻击更有效,包括大型开源模型(例如Llama2-70B)和商业模型(GPT-3.5)。我们还显示了RL-Jack对三种SOTA防御的弹性及其在不同模型中的可转移性,包括非常大的Llama2-70B。我们通过详细的消融研究进一步证明了RL-Jack的RL代理的必要性以及我们的行动和奖励设计的有效性。最后,我们验证了RL杰克对关键超参数的变化的不敏感性。
摘要 - 强调对深层生成模型的调节,这是由于与隐私和遵守监管框架有关的关注所升级,强调了对这些模型的精确控制机制的必要需求。这种紧迫性尤其强调,在这种情况下,生成模型产生的输出涵盖了可观的,令人反感的,令人反感的或可能有害的内容。在响应中,已经出现了机器,以选择性地忘记特定的知识或从预训练的模型中删除不良数据子集的影响。但是,现代机器未学习方法通常会在学习过程中访问模型参数和架构细节,这并不总是可行的。在多种下游任务中,这些模型充当黑框系统,具有无法访问的预训练参数,体系结构和训练数据。在这种情况下,过滤不需要的输出的可能性成为一种实用的选择。我们提出的方法功能特征意识相似性阈值(快速)通过系统地编码潜在空间中不需要的特征来有效地抑制不希望的输出。我们采用用户标记的正和负样本来指导此过程,利用潜在空间固有的能力来捕获这些不受欢迎的表示形式。在推断期间,我们使用潜在空间中的此确定的表示形式来计算带有新采样的潜在向量的投影相似性指标。随后,我们精心应用一个阈值以从输出中排除不可用的样品。我们的实施可从https://github.com/subhodip123/weak-unlearning-gan-gan
代谢途径建模在药物设计中发挥着越来越重要的作用,因为它可以让我们更好地了解生物体代谢中潜在的调控和控制网络。然而,尽管该领域取得了快速进展,但途径建模对研究人员来说可能成为一场真正的噩梦,尤其是在实验数据很少或途径高度复杂的情况下。在这里,开发了三种不同的方法来模拟溶组织阿米巴原虫糖酵解的第二部分作为应用示例,并成功预测了最终的途径通量:一种包括详细的动力学信息(白框),另一种添加了调整项(灰框),最后一种使用人工神经网络方法(黑框)。之后,每个模型都用于代谢控制分析和通量控制系数确定。该途径的前两种酶被确定为在通量控制中发挥作用的关键酶。这项研究揭示了这三种方法对于在代谢途径建模领域根据现有数据构建合适模型的重要意义,对生物学家和建模者都有用。
摘要。确保自动驾驶汽车(AV)的安全是他们在社会中接受的关键。这种复杂性是通过在各种情况下使用基于AI的黑盒控制器和周围物体正式证明其安全条件的核心挑战。本文用事件-B进行机械措施来描述我们在建模,得出和证明AV的安全条件方面的策略和经验,以降低复杂性。我们的案例研究针对目标感知责任敏感安全的最先进模型,以争论与周围车辆的相互作用。我们还使用单纯架构来涉及高级黑盒AI控制器。我们的经验表明,可以有效地使用修复机制来逐渐发展复杂的系统。