工作研究关键词检索结果

论智能与判断分离的不可能性:AI 对齐过滤的计算难题

On the Impossibility of Separating Intelligence from Judgment: The Computational Intractability of Filtering for AI Alignment

随着大型语言模型 (LLM) 部署的增加,人们担心它们可能被滥用来生成有害内容。我们的工作研究对齐挑战,重点是过滤器以防止生成不安全信息。两个自然的干预点是在输入提示到达模型之前对其进行过滤,以及在生成后对输出进行过滤。我们的主要结果证明了过滤提示和输出方面的计算挑战。首先,我们表明存在没有有效提示过滤器的法学硕士:对抗性提示......