抽象人工智能(AI)深深地嵌入了处理敏感信息和任务操作的部门中,并且保护这些系统已变得至关重要。本文引入了一种新型的双层防御系统,称为安全人工智能(SAI),旨在减轻与迅速注射和迅速中毒攻击有关的风险。在连续设置“ SAI”中使用两个大型语言模型(LLM) - 一种用于初始输入及时分类的“后卫”模型,该模型有效地滤除了对抗性输入以保护AI系统和响应用户查询的主要响应模型。通过严格的测试,SAI在防止恶意提示损害AI响应方面表现出了弹性,从而大大提高了AI安全性。本文彻底研究了SAI的架构,方法论和性能,以满足对安全和对抗性AI系统的不断增长的需求。关键字:大语言模型,安全的人工智能,人工智能,及时注入,AI安全性。ntroduction虽然人工智能(AI)在政府,银行业和医疗保健方面具有许多优势,但其融合会增加脆弱性,尤其是随着LLM的复杂性和能力发展。AI仍然容易受到对抗性及时的操纵的攻击,这些操纵利用了自然语言弱点,尽管对强大的模型训练和硬编码过滤器规则进行了大量研究[1] [9] [18]。直接将有害物质直接嵌入AI输入,快速注射和中毒攻击中提供了一种特殊的危害[1] [6] [11]。与通常集中于攻击系统弱点的传统网络威胁不同,这些攻击使用了AI学习的反应模式,因此修改模型以产生意外的和通常的负面结果[1] [3]。鉴于语言的复杂性和LLM答案的复杂性,这种敌对的方法可能很难检测和预防[6] [7]。在这项工作中提出了安全的人工智能(SAI)作为解决这些挑战的解决方案。SAI的创新架构满足了针对基于及时的敌对投入的弹性,可扩展的防御的需求
主要关键词