详细内容或原文请订阅后点击阅览
Gemma-2B 和 Gemma-12B-IT 中的三相事实回忆电路
激活修补揭示了如何跨变压器层存储、路由和读取事实,以及为什么残差流完成大部分工作Gemma-2B 和 Gemma-12B-IT 中的三相事实回忆电路一文首先出现在《走向数据科学》上。
来源:走向数据科学模型内部代表事实知识?这篇文章介绍了 BizzaroWorld,这是一项机械可解释性研究,尝试使用跨 60 个提示对和 20 个知识类别的激活补丁来定位 Gemma 模型系列中的事实回忆回路。这里的技术工作很大程度上受到 Prakash 等人所做的工作的影响。1,他们研究了 LLaMa 系列模型中的实体跟踪。
目标:本地化事实知识在变压器中的位置,以及该位置在整个模型范围内是否一致。完整的代码库可在此处获取。
实验设置
首先,我想知道为什么通过干净和损坏的提示对进行 logit 差异是解决此问题的理想方法。寻找事实似乎与寻找实体相似,如 Prakash 等人。确实如此,所以我专注于间接对象识别(IoI)。如果我提出三个事实提示及其明确的目标,这一点会更清楚。
在我看来,要回答此类问题,法学硕士需要在其代表范围内找到实体。因此,我寻找更多关于 logit 差异和 IoI 在这种情况下如何发挥作用的答案,为此,ARENA 课程²非常有帮助。我发现干净和损坏的提示对之间的 logit 差异提供了一个清晰的标量信号,非常适合测量修补干预的因果效应,所以这就是我测量的结果。
因此,我设计了一个包含 60 个干净/损坏提示对的事实电池,涵盖 20 个不同类别的事实。
效果很好,我得到了一个包含所有提示的 CSV 文件,并按 TotalSwing 排序。我将其称为黄金提示对,并使用它为我要做的每个后续实验创建了三种实验模式。
现在,我准备开始实验了。
