神经模型和符号模型以根本不同的方式压缩世界,而稀疏自动编码器 (SAE) 提供了连接它们的桥梁。后神经网络是模糊的,符号系统是支离破碎的。稀疏自动编码器帮助我们将它们组合起来。首先出现在《走向数据科学》上。
ExpertLens: Activation Steering Features Are Highly Interpretable
本文在 NeurIPS 2025 的统一神经模型表示研讨会 (UniReps) 上被接受。大语言模型 (LLM) 中的激活引导方法已成为执行有针对性的更新以增强生成语言的有效方法,而无需大量适应数据。我们询问激活引导方法发现的特征是否可以解释。我们使用激活控制研究中的“寻找专家”方法来识别负责特定概念(例如“猫”)的神经元,并表明 ExpertLens,即检查这些......