近年来,对话大语模型(LLMS)1经历了快速发展(Touvron等人,2023; Chiang等。,2023; Openai,2023a),在不同应用中显示出强大的对话功能(Bubeck等人,2023; Chang等。,2023)。但是,在对话期间也可以利用LLMS来促进诸如欺诈和网络攻击之类的危害活动,并出现重大的社会风险(Gupta等人。,2023; Mozes等。,2023;刘等。,2023b)。这些风险包括有毒含量的传播(Gehman等人。,2020年),歧视性双期的持续性(Hartvigsen等人,2022),并传播错误信息(Lin等人,2022)。对LLM交通安全性的日益关注 - 特别是确保LLM依据没有有害信息 - 已导致广泛的攻击和国防研究
大型语言模型(LLMS)最近在各种任务中表现出了高功能,尤其是在开放式文本生成中,如Chatgpt(OpenAI,2023a)和其他模型所示(OpenAI,2023b; Touvron等>,2023a,b;江等。,2023)。在开放式一代中,LLMS必须以类似人类的风格产生正确的答案。多亏了缩放法(Kaplan等人。,2020年; Wei等人。,2022; Gunasekar等。,2023),这项和许多其他任务得到了显着改进。评估LLMS的开放式一代对于他们的发展而言是挑战的。最可靠的评估方法是人类的判断,例如在聊天机器人领域(Chiang等人,2024)。但是,开放式一代任务缺乏基本真理和清晰的评估客观标准。最近的llm-as-a-a-a-a判断基准(Zheng等人,2023),高端LLM取代了Human法官,部分解决了此问题,但有
等。,2023)。这些模型包括公开可用-042 Able LLM(Touvron等人,2023; Chiang等。,043 2023; Taori等。,2023)带有视觉编码器和044其他可学习参数(Hu等人,2022; 045 Liu等。,2023b; Li等。,2023a)。将LLMS 046适应视频方式,从而提高了他们的能力047解释视觉内容,它们都使用多模式049指令数据进行了Su-048 perved-048 perved-048(SFT)阶段(Luo等人(Luo等)(Luo等),2023; Muham-050 Mad Maaz和Khan,2023年; Li等。,2023b)。051然而,视频052和文本之间的多模式对齐面临着不足053的重大挑战053的体积和多模式指令质量 - 与仅文本数据相比,多模式指令-054调音数据;仅文本的055数据通常很丰富且多样化,而mul-056 timodal数据通常受到数量和057全面性的限制(Wei等人。,2021;刘等。,058
可以通过在训练过程中逐步增加图像大小来进一步加速我们的培训。许多以前的作品,例如渐进式调整(Howard,2018),FixRes(Touvron等人,2019年)和混合匹配(Hoffer等人,2019年),在培训中使用了较小的图像尺寸;但是,它们通常对所有图像尺寸保持相同的正则化,从而导致准确性下降。我们认为,对不同图像大小保持相同的规则ization并不理想:对于同一网络,小图像大小会导致小网络小组,因此需要弱的正则化;反之亦然,较大的图像大小需要更强的正则化来对抗过度拟合(请参阅第4.1节)。基于这种见解,我们提出了一种改进的渐进学习方法:在早期的培训时期,我们以较小的图像大小和较弱的正则化(例如,辍学和数据增强)训练网络,然后我们逐渐增加图像大小并增加更强大的调节化。建立在渐进式调整的基础上(Howard,2018),但是通过动态调整正则化,我们的方法可以加快训练而不会导致准确性下降。
生成AI(Genai)系统使用户能够快速生成高质量的内容。大语模型(LLM)的最新进展(Radford等人,2019年; Chowdhery等。,2022;布朗等人。,2020年; Touvron等。,2023; Bubeck等。,2023; Schulman等。,2022; Openai,2023年;拟人化,2023年),视觉语言模型(VLMS)(Radford等人,2021;刘等。,2023a; Driess等。,2023;团队,2023年)和扩散模型(Ramesh等人,2021; Song等。,2020年;杨等。,2023年)彻底改变了Genai的能力。开放的Web应用程序安全项目(OWASP)已编制了对LLM应用程序的十大漏洞和威胁的详细列表(Owasp,2023)。Genai模型旨在了解和生成具有超过传统机器学习系统的自主权,提供新颖的能力来理解视觉场景,生成文本,代码,图像以及与人类和互联网服务互动的新型功能。此功能可以实现更广泛的应用程序,并以这种方式引入了这些新型Genai集成应用所特有的新安全挑战。在本文中,我们讨论了该领域的挑战和机遇,从本节开始,从安全风险开始,包括Genai模型如何成为攻击的目标,一个无意中损害安全性的“傻瓜”,或者是坏演员攻击他人的工具。
问题的重要性和新颖性。现有的UQ方法主要是针对犯罪模型的,这些方法用于分类或回归任务。这些方法虽然对图像分类或二进制决策等任务有效,但并不能很好地转化为基于LLM的自回旋模型(Brown等人。,2020年; Thoppilan等。,2022; Touvron等。,2023)。自回旋模型顺序生成令牌,其中每个输出取决于上一个。此结构引入了不确定性量化的独特挑战。首先,在自回旋模型中,产生了不确定性化合物,因此很难捕获模型对序列的置信度的幅度。llms动态适应了前面的上下文,随着模型通过文本或多模式序列的形式导致不确定性的变化。对于llms处理文本和图像模式(例如GPT-4),由于输入和输出空间的多模式性质,不确定性量化变得更加复杂。传统的UQ方法难以考虑交叉模式的相互作用,在这种互动中,一种模式中的不确定性(例如,图像理解)会影响另一种方式(例如,文本生成)。llms的另一个明显挑战是人类反馈的有限精度。现有用于校准模型的技术取决于对地面真相标签的访问。相比之下,使用LLMS没有真正的标签,一个只能访问少数几代人的相对偏好。此外,对理论框架的需求越来越大,可以有效地分析和预测分布(OOD)场景中的模型行为,在这种情况下,不确定性对于确定模型何时可能不可靠的不确定性至关重要。要应对这些挑战,UQ方法必须从量身定制的传统方法转变为判别模型,并采用新技术,这些技术可以解释自动回归模型的复杂依赖性和动态性质。