计算机视觉中的 transformer:ViT 架构、技巧、窍门和改进
了解有关计算机视觉中的 Transformer 架构(又名 ViT)的所有知识。
来源:AI夏令营您可能已经知道 Vision Transformer (ViT)。这篇博文讲述了它首次提交后发生的事情。我们将探索 ViT 的多个正交研究方向。为什么?因为您可能对视频摘要等特定任务感兴趣。我们将解决诸如如何在计算机视觉问题上调整/使用 ViT、基于 ViT 的最佳架构是什么、训练技巧和方法、缩放定律、监督与自监督预训练等问题。
尽管许多想法来自 NLP 世界,如线性和局部注意力,但 ViT 领域已经名声大噪。归根结底,这两个领域的操作是相同的:自注意力。它只是应用于补丁嵌入而不是词嵌入。
来源:Transformers in Vision
来源:Transformers in Vision Transformers in Vision因此,我将在此介绍我认为有趣的方向。
重要提示:ViT 及其先决条件未在此处介绍。因此,为了优化您的理解,我强烈建议您仔细阅读有关自我注意、原始 ViT 以及 Transformers 的先前帖子。如果您喜欢我们的 transformer 系列,请考虑请我们喝杯咖啡!
重要提示:ViT 及其先决条件未在此处介绍。因此,为了优化您的理解,我强烈建议您仔细阅读有关自我注意、原始 ViT 以及 Transformers 的先前帖子。如果您喜欢我们的 transformer 系列,请考虑请我们喝杯咖啡!
不是 自我注意力 ViT 变形金刚 咖啡DeiT:合理规模训练 ViT
知识蒸馏
NNN NNN NN知识提炼工作 自我提炼