LLM 是否在内部“知道”何时遵循指令?

本文被 NeurIPS 2024 的基础模型干预 (MINT) 研讨会接受。指令遵循对于构建具有大型语言模型 (LLM) 的 AI 代理至关重要,因为这些模型必须严格遵守用户提供的指南。然而,LLM 往往无法遵循哪怕是简单的指令。为了改善指令遵循行为并防止不良输出,我们需要更深入地了解 LLM 的内部状态与这些结果之间的关系。我们对 LLM 内部状态的分析揭示了输入嵌入空间中与成功相关的维度......

来源:Apple机器学习研究

这篇论文被 NeurIPS 2024 的基础模型干预 (MINT) 研讨会接受。

指令遵循对于使用大型语言模型 (LLM) 构建 AI 代理至关重要,因为这些模型必须严格遵守用户提供的指南。然而,LLM 往往无法遵循哪怕是简单的指令。为了改善指令遵循行为并防止不良输出,我们需要更深入地了解 LLM 的内部状态与这些结果之间的关系。我们对 LLM 内部状态的分析揭示了输入嵌入空间中与成功指令遵循相关的一个维度。我们证明,与随机更改相比,沿着这个维度修改表示可以提高指令遵循的成功率,而不会影响响应质量。这项工作深入了解了 LLM 指令遵循的内部工作原理,为可靠的 LLM 代理铺平了道路。