Weekly Review 14 November 2025
上周我在 Twitter 上发布的一些有趣链接(我还在 Mastodon、Threads、Newsmast 和 Bluesky 上发布了这些链接):当 AI 泡沫破裂时,它会造成多大损害? https://www.stuff.co.nz/business/360877272/fears-ai-bubble- Correction-mount-despite-wall-st-rises不,人工智能编写的勒索软件并不在野外:https://www.theregister.com/2025/11/03/mit_sloan_updates_ai_ransomware_paper/看起来大多数人工智能安
ExpertLens: Activation Steering Features Are Highly Interpretable
本文在 NeurIPS 2025 的统一神经模型表示研讨会 (UniReps) 上被接受。大语言模型 (LLM) 中的激活引导方法已成为执行有针对性的更新以增强生成语言的有效方法,而无需大量适应数据。我们询问激活引导方法发现的特征是否可以解释。我们使用激活控制研究中的“寻找专家”方法来识别负责特定概念(例如“猫”)的神经元,并表明 ExpertLens,即检查这些......