在大型语言模型中,现有的指令调整方法可能无法在及时注入和越狱等用户输入的攻击方面保持稳健性。受到计算机硬件和操作系统的启发,我们提出了一种指令调用范式的指令,称为木质lm lm I n构造策略(ALIS),以通过将用户输入分解为不可减少的原子指令,并将它们组织到指导流中,从而增强模型性能,以指导它们将响应生成模型响应。alis是一个层次结构,在该结构中,用户输入和系统提示分别被视为用户和内核模式指令。基于ALIS,该模型可以通过忽略或拒绝输入指令来维护安全限制,当时用户模式指令尝试与内核模式指令发生冲突。为了构建Alis,我们还开发了一种自动指令生成方法,用于培训ALIS,并提供一个指令分解任务和相应的数据集。值得注意的是,具有小型模型的ALIS框架仍然可以提高LLM对攻击的弹性的弹性,而不会损失一般的攻击性。我们的代码和数据可在https://github.com/xinhaos0101/alis上获得。
主要关键词