工作研究领域信息情报检索---XiaoMi-AI

2026年3月3日 00:00

论智能与判断分离的不可能性：AI 对齐过滤的计算难题

On the Impossibility of Separating Intelligence from Judgment: The Computational Intractability of Filtering for AI Alignment

随着大型语言模型 (LLM) 部署的增加，人们担心它们可能被滥用来生成有害内容。我们的工作研究对齐挑战，重点是过滤器以防止生成不安全信息。两个自然的干预点是在输入提示到达模型之前对其进行过滤，以及在生成后对输出进行过滤。我们的主要结果证明了过滤提示和输出方面的计算挑战。首先，我们表明存在没有有效提示过滤器的法学硕士：对抗性提示......

工作研究关键词检索结果

论智能与判断分离的不可能性：AI 对齐过滤的计算难题