详细内容或原文请订阅后点击阅览
ExpertLens:激活控制功能具有高度可解释性
本文在 NeurIPS 2025 的统一神经模型表示研讨会 (UniReps) 上被接受。大语言模型 (LLM) 中的激活引导方法已成为执行有针对性的更新以增强生成语言的有效方法,而无需大量适应数据。我们询问激活引导方法发现的特征是否可以解释。我们使用激活控制研究中的“寻找专家”方法来识别负责特定概念(例如“猫”)的神经元,并表明 ExpertLens,即检查这些......
来源:Apple机器学习研究本文已被 NeurIPS 2025 的神经模型统一表示 (UniReps) 研讨会接受。
大语言模型 (LLM) 中的激活引导方法已成为执行有针对性的更新以增强生成语言而不需要大量适应数据的有效方法。我们询问激活引导方法发现的特征是否可以解释。我们使用激活控制研究中的“寻找专家”方法来识别负责特定概念(例如“猫”)的神经元,并表明 ExpertLens(即对这些神经元的检查)提供了有关模型表示的见解。我们发现 ExpertLens 表示在模型和数据集中都是稳定的,并且与从行为数据推断出的人类表示紧密一致,匹配人类之间的对齐水平。 ExpertLens 显着优于单词/句子嵌入捕获的对齐。通过 ExpertLens 重建人类概念组织,我们表明它可以实现 LLM 概念表示的精细视图。我们的研究结果表明,ExpertLens 是一种灵活且轻量级的方法,用于捕获和分析模型表示。
