详细内容或原文请订阅后点击阅览
论智能与判断分离的不可能性:AI 对齐过滤的计算难题
随着大型语言模型 (LLM) 部署的增加,人们担心它们可能被滥用来生成有害内容。我们的工作研究对齐挑战,重点是过滤器以防止生成不安全信息。两个自然的干预点是在输入提示到达模型之前对其进行过滤,以及在生成后对输出进行过滤。我们的主要结果证明了过滤提示和输出方面的计算挑战。首先,我们表明存在没有有效提示过滤器的法学硕士:对抗性提示......
来源:Apple机器学习研究随着大型语言模型 (LLM) 部署的增加,人们担心它们可能被滥用来生成有害内容。我们的工作研究对齐挑战,重点是过滤器以防止生成不安全信息。两个自然的干预点是在输入提示到达模型之前对其进行过滤,以及在生成后对输出进行过滤。我们的主要结果证明了过滤提示和输出方面的计算挑战。首先,我们表明存在没有有效提示过滤器的法学硕士:可以轻松构建引发有害行为的对抗性提示,这在计算上与任何有效过滤器的良性提示无法区分。我们的第二个主要结果确定了一种自然设置,其中输出过滤在计算上是难以处理的。我们所有的分离结果都是在加密硬度假设下进行的。除了这些核心发现之外,我们还形式化并研究了宽松的缓解方法,展示了进一步的计算障碍。我们的结论是,通过设计 LLM 内部结构(架构和权重)外部的滤波器无法实现安全性;特别是,通过黑匣子进入法学硕士是不够的。根据我们的技术结果,我们认为一致的人工智能系统的智能不能与其判断分开。
