expert关键词检索结果

ExpertLens:激活控制功能具有高度可解释性

ExpertLens: Activation Steering Features Are Highly Interpretable

本文在 NeurIPS 2025 的统一神经模型表示研讨会 (UniReps) 上被接受。大语言模型 (LLM) 中的激活引导方法已成为执行有针对性的更新以增强生成语言的有效方法,而无需大量适应数据。我们询问激活引导方法发现的特征是否可以解释。我们使用激活控制研究中的“寻找专家”方法来识别负责特定概念(例如“猫”)的神经元,并表明 ExpertLens,即检查这些......