详细内容或原文请订阅后点击阅览
一种引导人工智能输出的新方法发现了漏洞和潜在的改进
一组研究人员找到了一种通过操纵模型中的特定概念来控制大型语言模型的输出的方法。新方法可以使法学硕士培训更可靠、更高效、计算成本更低。但它也暴露了潜在的漏洞。由大学 Mikhail Belkin 领导的研究人员 [...]
来源:Scientific Inquirer一组研究人员找到了一种通过操纵模型中的特定概念来控制大型语言模型的输出的方法。新方法可以使法学硕士培训更可靠、更高效、计算成本更低。但它也暴露了潜在的漏洞。
由加州大学圣地亚哥分校的 Mikhail Belkin 和麻省理工学院的 Adit Radhakrishnan 领导的研究人员在 2026 年 2 月 19 日出版的《科学》杂志上发表了他们的发现。
在这项研究中,研究人员深入研究了几位法学硕士,以找到特定的概念。然后,他们通过数学方法增加或减少了这些概念在法学硕士输出中的重要性。这项工作建立在 Belkin 和 Radhakrishnan 领导的 2024 年 Science 论文的基础上,其中他们描述了称为递归特征机的预测算法。这些机器识别法学硕士内一系列数学运算中的模式,这些运算对特定概念进行编码。
“我们发现我们可以用非常简单的数学方法来修改这些模式,”Halıcıoğlu 数据科学研究所(隶属于加州大学圣地亚哥分校计算、信息和数据科学学院)的教授 Mikhail Belkin 说道。
使用这种引导方法,研究团队对当今使用的一些最大的开源法学硕士(例如 Llama 和 Deepseek)进行了实验,识别并影响了五个类别中的 512 个概念,从恐惧、情绪到位置。该方法不仅适用于英语,也适用于中文和印地语等语言。
这两项研究都特别重要,因为直到最近,法学硕士内部的流程基本上都被锁定在黑匣子内,因此很难理解模型如何以不同的准确度为用户提供答案。
提高性能并发现漏洞
视频
计算节省和后续步骤
