详细内容或原文请订阅后点击阅览

科学家找到控制AI行为的关键

2026年2月20日 09:00 33 Comments

研究人员发现了一种简单的数学方法，可以通过直接操纵内部概念向量来“引导”人工智能模型——提高性能，同时揭示隐藏的风险。现在，人工智能的行为可以比以往更精确地控制，但也引发了人们对安全措施很容易被绕过的担忧。

来源:Qudata

多年来，像 Llama 和 Claude 这样的大型语言模型 (LLM) 的内部工作原理一直被比作“黑匣子”——巨大、复杂，而且非常难以驾驭。但来自加州大学圣地亚哥分校和麻省理工学院的一组研究人员刚刚在《科学杂志》上发表了一项研究，表明这个盒子并不像我们想象的那么神秘。

该团队发现，人工智能中的复杂概念（从印地语等特定语言到阴谋论等抽象概念）实际上在模型的数学空间中存储为简单的直线或向量。

通过使用一种名为递归特征机 (RFM) 的新工具（一种特征提取技术，可以识别代表从情绪和恐惧到复杂推理等概念的线性模式），研究人员能够精确地追踪这些路径。一旦确定了概念的方向，就可以“推动”它。通过以数学方式添加或减去这些向量，团队可以立即改变模型的行为，而无需昂贵的重新训练或复杂的提示。

这种方法的效率引起了业界的热议。仅使用一个标准 GPU（NVIDIA A100），该团队就可以在不到一分钟的时间内识别和引导一个概念，所需的训练样本少于 500 个。

这种“外科手术式”的人工智能方法的实际应用是立竿见影的。在一项实验中，研究人员引导了一个模型来提高其将 Python 代码转换为 C++ 的能力。通过将代码的“逻辑”与语言的“语法”隔离开来，引导模型的性能优于仅要求通过文本提示进行“翻译”的标准版本。

虽然该研究重点关注 Meta 的 Llama 和 DeepSeek 等开源模型，以及 OpenAI 的 GPT-4o，但研究人员认为这些发现适用于所有领域。随着模型变得越来越大、越来越复杂，它们实际上变得更加可操纵，而不是越来越差。

所需的引导工作原理提高想象的向量语言的模型的昂贵的提取技术实际应用代码的团队线性模式行为提示黑匣子研究人员特征提取人工智能科学家训练样本概念的复杂复杂的使用概念研究简单的精确地加或减模型识别 Llama 实际上来自