论智能与判断分离的不可能性：AI 对齐过滤的计算难题 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

论智能与判断分离的不可能性：AI 对齐过滤的计算难题

2026年3月3日 00:00 33 Comments

来源:Apple机器学习研究

随着大型语言模型 (LLM) 部署的增加，人们担心它们可能被滥用来生成有害内容。我们的工作研究对齐挑战，重点是过滤器以防止生成不安全信息。两个自然的干预点是在输入提示到达模型之前对其进行过滤，以及在生成后对输出进行过滤。我们的主要结果证明了过滤提示和输出方面的计算挑战。首先，我们表明存在没有有效提示过滤器的法学硕士：可以轻松构建引发有害行为的对抗性提示，这在计算上与任何有效过滤器的良性提示无法区分。我们的第二个主要结果确定了一种自然设置，其中输出过滤在计算上是难以处理的。我们所有的分离结果都是在加密硬度假设下进行的。除了这些核心发现之外，我们还形式化并研究了宽松的缓解方法，展示了进一步的计算障碍。我们的结论是，通过设计 LLM 内部结构（架构和权重）外部的滤波器无法实现安全性；特别是，通过黑匣子进入法学硕士是不够的。根据我们的技术结果，我们认为一致的人工智能系统的智能不能与其判断分开。

† 慕尼黑路德维希马克西米利安大学 (MCML)

‡ 加州大学伯克利分校

§ JPSM 马里兰大学

¶ 斯坦福大学

提示黑匣子生成一致的滤波器 LLM 输入人工智能根据系统的输出自然的无法工作研究缓解方法进行所有的过滤外部的安全性法学硕士有害计算过滤器模型结果

论智能与判断分离的不可能性：AI 对齐过滤的计算难题

其他外部链接

Tags

XiaoMi-AI