注意力矩阵中的故障

Transformer 工件的历史以及如何修复它们的最新研究注意力矩阵中的故障首先出现在走向数据科学上。

来源:走向数据科学

基础模型的基础,使我们能够将现成的预训练模型应用于各种任务。然而,变压器模型中存在一个常见的工件,可能会对特定任务和场景产生不利影响。不了解这些缺陷可能会导致您的项目表现严重不佳或失败。例如,DINOv2 的 GitHub 页面包含使用和不使用寄存器进行预训练的模型。包含指标的表格表明,引入寄存器来修复此工件并不能以有意义的方式帮助模型。如果精度没有提高,为什么还要增加复杂性呢?

但是,DINOv2 页面上显示的指标仅适用于 ImageNet 分类,已知该分类不会受到这些伪影的影响。如果您使用不带寄存器的 DINOv2 ViT 模型进行对象检测(如 LOST),您的性能可能会更差。

在不了解高标准工件何时会影响您的项目的情况下使用预训练的 ViT 模型可能会导致您的项目失败。

自从识别出这些伪影以来,研究界已经开发了多种方法来解决这些问题。最新的解决方案几乎不需要重新训练,并且引入零额外测试时间延迟。这些现象并非 ViT 所独有,LLM 中也会出现。事实上,这里回顾的 NeurIPS 2025 论文之一提出了针对这些“注意力接收器”工件的通用解决方案——它修改了自注意力变压器架构。这种修改后的架构被证明在多种方面都是有益的,并且已经被纳入最新的 Qwen 模型 Qwen3-Next 中。

本文提供了以下方面的全面指南:

  • 变压器寄存器。
  • 他们解决的高标准工件(或注意力集中点)。
  • 用于减轻这些问题的最新研究驱动解决方案。
  • 1. 使用 DINOv2 发现 ViT 中的文物

    这些工件表现出四个关键特征:

    高标准工件的影响