LLMS遵循说明时会在内部知道吗?

指令遵循的内容对于建立具有大语言模型(LLMS)的AI代理至关重要,因为这些模型必须严格遵守用户提供的约束和准则。但是,LLM通常甚至无法遵循简单明了的说明。为了改善跟随指导行为并防止不良产出,需要更深入地了解LLMS内部状态与这些结果的关系。在这项工作中,我们调查了LLMS是否在其表示中编码与指导跟踪成功相关的信息 - 我们“内部知识”的属性。我们的分析…

来源:Apple机器学习研究

指令遵循的内容对于建立具有大语言模型(LLMS)的AI代理至关重要,因为这些模型必须严格遵守用户提供的约束和准则。但是,LLM通常甚至无法遵循简单明了的说明。为了改善跟随指导行为并防止不良产出,需要更深入地了解LLMS内部状态与这些结果的关系。在这项工作中,我们调查了LLMS是否在其表示中编码与指导跟踪成功相关的信息 - 我们“内部知识”的属性。我们的分析标识了输入嵌入空间中的方向,称为跟随指令的维度,该维度预测了响应是否符合给定的指令。我们发现,这个维度在看不见的任务中很好地概括了,但在看不见的指令类型中却没有。我们证明,与随机变化相比,沿该维度进行修改表示的说明可以提高指导跟踪的成功率,而不会损害响应质量。进一步的调查表明,该维度与提示的措辞密切相关,而不是任务或说明的固有难度。这项工作提供了有关LLMS遵循指令的内部运作的洞察力,为可靠的LLM代理铺平了道路