一种引导人工智能输出的新方法发现了漏洞和潜在的改进 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

一种引导人工智能输出的新方法发现了漏洞和潜在的改进

2026年2月22日 20:03 33 Comments

一组研究人员找到了一种通过操纵模型中的特定概念来控制大型语言模型的输出的方法。新方法可以使法学硕士培训更可靠、更高效、计算成本更低。但它也暴露了潜在的漏洞。由大学 Mikhail Belkin 领导的研究人员 [...]

来源:Scientific Inquirer

一组研究人员找到了一种通过操纵模型中的特定概念来控制大型语言模型的输出的方法。新方法可以使法学硕士培训更可靠、更高效、计算成本更低。但它也暴露了潜在的漏洞。

由加州大学圣地亚哥分校的 Mikhail Belkin 和麻省理工学院的 Adit Radhakrishnan 领导的研究人员在 2026 年 2 月 19 日出版的《科学》杂志上发表了他们的发现。

在这项研究中，研究人员深入研究了几位法学硕士，以找到特定的概念。然后，他们通过数学方法增加或减少了这些概念在法学硕士输出中的重要性。这项工作建立在 Belkin 和 Radhakrishnan 领导的 2024 年 Science 论文的基础上，其中他们描述了称为递归特征机的预测算法。这些机器识别法学硕士内一系列数学运算中的模式，这些运算对特定概念进行编码。

“我们发现我们可以用非常简单的数学方法来修改这些模式，”Halıcıoğlu 数据科学研究所（隶属于加州大学圣地亚哥分校计算、信息和数据科学学院）的教授 Mikhail Belkin 说道。

使用这种引导方法，研究团队对当今使用的一些最大的开源法学硕士（例如 Llama 和 Deepseek）进行了实验，识别并影响了五个类别中的 512 个概念，从恐惧、情绪到位置。该方法不仅适用于英语，也适用于中文和印地语等语言。

这两项研究都特别重要，因为直到最近，法学硕士内部的流程基本上都被锁定在黑匣子内，因此很难理解模型如何以不同的准确度为用户提供答案。

提高性能并发现漏洞

视频

计算节省和后续步骤

圣地亚哥隶属于语言不同的预测算法提高加或减新方法发现准确度内部的提高性能 Radhakrishnan 数据 Belkin 重要性特定的最大的科学一系列输出的识别法研究数学方法法学硕士领导的概念使用的潜在的科学学方法研究人员模型的机器识别 Mikhail 黑匣子高性能计算成本运算计算基本上研究所简单的科学研究加州大学

一种引导人工智能输出的新方法发现了漏洞和潜在的改进

其他外部链接

Tags

XiaoMi-AI