摘要 - 大型语言模型(LLM)的出现通过提供先进的自然语言处理能力彻底改变了各种应用。但是,这项创新引入了新的网络安全挑战。本文探讨了专门针对LLM驱动应用程序量身定制的威胁建模和风险分析。专注于数据中毒,及时注射,SQL注入,越狱和构图注入等潜在攻击,我们评估了它们对安全性的影响并提出缓解策略。我们引入了一个框架,结合了大步和恐惧方法,以进行主动威胁识别和风险评估。此外,我们通过定制的LLM驱动应用程序的案例研究来说明端到端威胁模型的可行性。该模型遵循Shostack的四个问题框架,并针对存在的独特威胁LLMS调整了。我们的目标是提出措施,以增强这些强大的AI工具的安全性,挫败攻击,并确保LLM集成系统的可靠性和完整性。
o1 模型系列经过大规模强化学习训练,使用思路链进行推理。这些先进的推理能力为提高模型的安全性和稳健性提供了新途径。特别是,通过深思熟虑的协调[ 1 ] 1 ,我们的模型可以在响应潜在不安全提示时根据上下文推理我们的安全政策。这导致在某些风险基准上表现出色,例如产生非法建议、选择刻板反应和屈服于已知越狱。训练模型在回答之前融入思路链有可能释放出巨大的好处,同时也会增加因智力提高而产生的潜在风险。我们的研究结果强调了建立强大的协调方法、对其有效性进行广泛的压力测试以及维护细致的风险管理协议的必要性。本报告概述了针对 OpenAI o1 和 OpenAI o1-mini 模型开展的安全工作,包括安全评估、外部红队和准备框架评估。
大型语言模型(LLMS)已证明了非凡的功能,并有助于多个领域,例如生成和总结文本,语言翻译和提问。如今,LLM已成为计算机化语言处理任务中非常流行的工具,具有分析复杂的语言模式并根据上下文提供相关和适当的响应的能力。在提供显着优势的同时,这些模型也容易受到安全和隐私攻击的影响,例如越狱攻击,数据中毒攻击和个人身份信息(PII)泄漏攻击。本调查对LLMS对培训数据和用户的安全性和隐私挑战进行了详尽的审查,以及在运输,教育和医疗保健等各个领域的基于应用程序的风险。我们评估了LLM漏洞的程度,调查LLM的新兴安全性和隐私攻击,并审查潜在的防御机制。此外,调查概述了该领域的现有研究差距,并突出了未来的研究方向。
O1模型系列经过大规模增强学习的训练,以使用思想链进行推理。这些高级推理功能为提高模型的安全性和鲁棒性提供了新的途径。尤其是,我们的模型可以在响应潜在不安全提示时在上下文中对我们的安全政策进行推论。这导致在某些基准测试中的最新性能,例如产生非法建议,选择刻板印象的回应以及屈服于已知的越狱。培训模型在回答之前纳入思想链有可能解锁实质性好处,同时也增加了智力增强的潜在风险。我们的结果强调了建立强大的一致性方法的必要性,对其有效性进行了广泛的压力,并保持了细致的风险管理协议。本报告概述了针对OpenAI O1-Preiview和OpenAI O1-Mini模型进行的安全工作,包括安全评估,外部红色团队和准备框架评估。
罗伯特·E·罗德斯少将 103 钱斯勒斯维尔 - 杰克逊侧翼行军(1863 年 5 月 2 日) 109 钱斯勒斯维尔 - 费尔维尤 115 理查德·S·尤厄尔中将 122 葛底斯堡 - 塞缪尔·科比恩之家 134 葛底斯堡 - 科比恩农场 135 葛底斯堡 - 橡树山 139 阿米斯特德·林赛·朗准将 165 马修·塔克列兵 213 特拉华堡监狱 223 罗伯特·A·哈达威中校 230 威尔弗雷德·E·卡特肖中校 233 埃尔迈拉监狱,纽约州埃尔迈拉 266 约翰·福克斯·莫尔中士 268 华盛顿·B·特拉维克列兵 271 约翰·P·普特纳特列兵 272 埃尔迈拉监狱越狱者 274 里斯的效忠宣誓 315
大型语言模型(LLMS)在自然语言任务中表现出了令人印象深刻的能力,但是由于他们在互联网文本中的培训,它们的安全性和道德仍然有争议。为了解决这些问题,已撤消对齐技术,以提高LLM的公共可用性和安全性。然而,通过这些模型产生有害内容的潜力似乎仍然存在。本文探讨了越狱LLM的概念 - 通过对抗触发器来避免其对齐。预先使用的方法,例如软嵌入提示,手动制作的提示和基于梯度的自动提示,由于其对模型访问的要求以及生产低的手动制作提示,使其在黑盒模型上取得了有限的成功,这使它们容易被阻止。本文使用强化学习引入了一种新颖的方法,以优化副词触发器,仅需要推理API访问目标模型和小型替代模型。我们的方法利用了基于Bertscore的奖励功能,可以增强对抗性触发器在新的黑盒模型上的可传递性和有效性。我们证明,这种方法改善了以前未经测试的语言模型的对抗触发器的性能。
在大型语言模型中,现有的指令调整方法可能无法在及时注入和越狱等用户输入的攻击方面保持稳健性。受到计算机硬件和操作系统的启发,我们提出了一种指令调用范式的指令,称为木质lm lm I n构造策略(ALIS),以通过将用户输入分解为不可减少的原子指令,并将它们组织到指导流中,从而增强模型性能,以指导它们将响应生成模型响应。alis是一个层次结构,在该结构中,用户输入和系统提示分别被视为用户和内核模式指令。基于ALIS,该模型可以通过忽略或拒绝输入指令来维护安全限制,当时用户模式指令尝试与内核模式指令发生冲突。为了构建Alis,我们还开发了一种自动指令生成方法,用于培训ALIS,并提供一个指令分解任务和相应的数据集。值得注意的是,具有小型模型的ALIS框架仍然可以提高LLM对攻击的弹性的弹性,而不会损失一般的攻击性。我们的代码和数据可在https://github.com/xinhaos0101/alis上获得。
本文全面探讨了针对大型语言模型(LLM)的安全威胁引起的道德挑战。这些复杂的数字存储库越来越多地整合到我们的日常生活中,使其成为攻击的主要目标,这些攻击可以损害其培训数据和数据源的机密性。本文深入研究了对社会和个人隐私的这种安全威胁的细微伦理影响。我们仔细检查了五个主要威胁,包括注射注射,越狱,可识别的信息(PII)暴露,性明确的内容和基于仇恨的内容 - 超出了仅仅标识,以评估其关键的道德后果以及他们为强大的防御策略创造的紧迫性。对LLM的不断依赖强调了确保这些系统在道德准则范围内运作的关键需求,尤其是因为它们的滥用可能导致重大的社会和个人伤害。我们提出了概念化和开发针对LLMS量身定制的评估工具,该工具将达到双重目的:指导开发人员和设计师在测试阶段的LLM Chatbot响应的伦理学维度进行审查。通过将LLM的反应与人类在道德背景下的人类期望的反应进行比较,我们旨在辨别AI行为与更广泛的社会所拥有的道德价值一致的程度。最终,本文不仅强调了LLMS带来的道德问题;它还突出了培养对这些系统的信任的道路。
最近的索拉(Sora)发展导致了文本对视频(T2V)一代的新时代。随之而来的是对其安全风险的关注。生成的视频可能包含非法或不道德的内容,并且缺乏对其安全性的全面定量理解,对其可靠性和实际部署构成了挑战。以前的评估主要关注视频生成的质量。虽然对文本到图像模型的一些评估认为安全性,但它们涵盖了有限的方面,并且无法解决视频生成中固有的独特时间风险。为了弥合这一研究差距,我们介绍了T2VSAFETYBENCH,这是对文本To-Video模型进行安全至关重要评估的首个全面基准。我们通过视频生成安全的14个关键方面定义了4个主要类别,并构建了一个恶意提示数据集,包括现实世界提示,LLM生成的提示和基于越狱攻击的提示。然后,我们对最近发布的9个T2V模型进行了彻底的安全评估。基于我们的评估结果,我们提出了几个重要的发现,包括:1)在各个方面没有任何单个模型,不同的模型显示了各种优势; 2)GPT-4评估与手动审查之间的相关性通常很高; 3)文本到视频生成模型的可用性和安全性之间存在权衡。这表明随着视频生成的领域迅速发展,安全风险将迅速增加,突出了优先考虑视频安全性的紧迫性。我们的代码可在https://github.com/yibo-miao/t2vsafetybench上公开获取。我们希望T2VSafetyBench可以提供见解,以更好地理解生成AIS时代的视频发电的安全性。
这是关于您根据《美国法典》第 10 篇第 1552 条申请更正海军记录的函件。在仔细、认真地考虑了您的海军记录和申请的相关部分后,海军记录更正委员会 (Board) 发现您提交的证据不足以证明可能存在重大错误或不公正。因此,您的申请被拒绝。虽然您没有及时提交申请,但根据国防部人事和战备副部长办公室 2017 年 8 月 25 日发布的指导意见 (Kurta Memo),诉讼时效已被免除。委员会的三人小组于 2023 年 2 月 15 日举行执行会议,审议了您的申请。小组成员的姓名和投票结果将应要求提供。根据适用于本委员会议事程序的行政法规和程序,审查了您对错误和不公正的指控。委员会考虑的文件材料包括您的申请以及为支持申请而提交的所有材料、您的海军记录的相关部分以及适用的法规、条例和政策,包括 Kurta 备忘录、国防部长 2014 年 9 月 3 日关于声称患有创伤后应激障碍 (PTSD) 的退伍军人提出退伍升级请求的指导(Hagel 备忘录)以及国防部人事和战备部副部长 2018 年 7 月 25 日关于公平、不公正或宽大处理决定的指导(Wilkie 备忘录)。委员会还考虑了之前提供给您的合格心理健康专业人员提供的咨询意见 (AO)。虽然您有机会提交 AO 反驳,但您选择不这样做。您于 1963 年 4 月 23 日加入海军并开始服现役。随后,您于 1966 年 9 月 23 日以光荣服役的成绩完成了服役,并立即重新入伍。 1967 年 12 月 12 日,您因未经授权的缺勤 (UA) 而受到非司法处罚 (NJP),共计七天。1970 年 4 月 30 日,您被特别军事法庭 (SPCM) 判处 UA 罪,共计 118 天。作为惩罚,您被判处监禁、没收薪水和降级。1971 年 1 月 18 日,您被 SPCM 第二次判处 UA 罪,共计 200 天并越狱。