计算机视觉中的 transformer:ViT 架构、技巧、窍门和改进

了解有关计算机视觉中的 Transformer 架构(又名 ViT)的所有知识。

来源:AI夏令营

您可能已经知道 Vision Transformer (ViT)。这篇博文讲述了它首次提交后发生的事情。我们将探索 ViT 的多个正交研究方向。为什么?因为您可能对视频摘要等特定任务感兴趣。我们将解决诸如如何在计算机视觉问题上调整/使用 ViT、基于 ViT 的最佳架构是什么、训练技巧和方法、缩放定律、监督与自监督预训练等问题。

尽管许多想法来自 NLP 世界,如线性和局部注意力,但 ViT 领域已经名声大噪。归根结底,这两个领域的操作是相同的:自注意力。它只是应用于补丁嵌入而不是词嵌入。

来源:Transformers in Vision

来源:Transformers in Vision Transformers in Vision

因此,我将在此介绍我认为有趣的方向。

重要提示:ViT 及其先决条件未在此处介绍。因此,为了优化您的理解,我强烈建议您仔细阅读有关自我注意、原始 ViT 以及 Transformers 的先前帖子。如果您喜欢我们的 transformer 系列,请考虑请我们喝杯咖啡!

重要提示:ViT 及其先决条件未在此处介绍。因此,为了优化您的理解,我强烈建议您仔细阅读有关自我注意、原始 ViT 以及 Transformers 的先前帖子。如果您喜欢我们的 transformer 系列,请考虑请我们喝杯咖啡!

不是 自我注意力 ViT 变形金刚 咖啡

DeiT:合理规模训练 ViT

知识蒸馏

NNN NNN NN NN NN N N N N N NNN NNN NN NN NN N N N N N N 知识提炼 知识提炼只是训练一个新的随机初始化模型来匹配集成的输出(一个大 N 倍的模型集)。训练有素的集成模型的输出是一组真实标签的混合版本,即 88% 的猫、7% 的老虎、5% 的狗。
知识提炼
工作 自我提炼

老师

N=1