Gemma-2B 和 Gemma-12B-IT 中的三相事实回忆电路 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Gemma-2B 和 Gemma-12B-IT 中的三相事实回忆电路

2026年6月24日 15:00 33 Comments

激活修补揭示了如何跨变压器层存储、路由和读取事实，以及为什么残差流完成大部分工作Gemma-2B 和 Gemma-12B-IT 中的三相事实回忆电路一文首先出现在《走向数据科学》上。

来源:走向数据科学

模型内部代表事实知识？这篇文章介绍了 BizzaroWorld，这是一项机械可解释性研究，尝试使用跨 60 个提示对和 20 个知识类别的激活补丁来定位 Gemma 模型系列中的事实回忆回路。这里的技术工作很大程度上受到 Prakash 等人所做的工作的影响。1，他们研究了 LLaMa 系列模型中的实体跟踪。

目标：本地化事实知识在变压器中的位置，以及该位置在整个模型范围内是否一致。完整的代码库可在此处获取。

实验设置

首先，我想知道为什么通过干净和损坏的提示对进行 logit 差异是解决此问题的理想方法。寻找事实似乎与寻找实体相似，如 Prakash 等人。确实如此，所以我专注于间接对象识别（IoI）。如果我提出三个事实提示及其明确的目标，这一点会更清楚。

“当红色颜料与黄色颜料混合时，结果是” -> “橙色”

“史诗《地狱篇》的作者是” -> “但丁”

“罗马神墨丘利与希腊神匹配” -> “赫尔墨斯”

在我看来，要回答此类问题，法学硕士需要在其代表范围内找到实体。因此，我寻找更多关于 logit 差异和 IoI 在这种情况下如何发挥作用的答案，为此，ARENA 课程²非常有帮助。我发现干净和损坏的提示对之间的 logit 差异提供了一个清晰的标量信号，非常适合测量修补干预的因果效应，所以这就是我测量的结果。

因此，我设计了一个包含 60 个干净/损坏提示对的事实电池，涵盖 20 个不同类别的事实。

效果很好，我得到了一个包含所有提示的 CSV 文件，并按 TotalSwing 排序。我将其称为黄金提示对，并使用它为我要做的每个后续实验创建了三种实验模式。

现在，我准备开始实验了。

隔离 Gemma-2B 的组件

参考文献

测量的寻找红色颜料为什么作用的变压器实体损坏的技术工作明确的本地化模型 Gemma Prakash 问题 20 知识实验事实代表完整的实验设置提示清晰的 logit IoI 工作的 60 发挥作用参考文献