详细内容或原文请订阅后点击阅览
预算上的视觉变压器
简介香草vit有问题。如果您看原始的Vit论文[1],您会注意到,尽管这种深度学习模型被证明非常好,但它需要数亿个标签的培训图像才能实现这一目标。好吧,那很多。对数据科学迈出的大量数据的这一要求肯定是[…]预算的后视觉变压器。
来源:走向数据科学香草vit有问题。如果您看原始的Vit论文[1],您会注意到,尽管这种深度学习模型被证明非常好,但它需要数亿个标签的培训图像才能实现这一目标。 好吧,那很多。
深度学习对大量数据的要求绝对是一个问题,因此,我们需要解决方案。 Touvron等。早在2020年12月,他们的研究论文就提出了一个想法,标题为“训练数据效率的图像变压器和通过注意力蒸馏” [2],使培训成为一个VIT模型,以便在计算上便宜得多。作者提出了一个想法,他们没有从头开始训练基于变压器的模型,而是通过蒸馏利用了现有模型的知识。通过这种方法,他们设法解决了VIT的渴望数据问题,同时仍保持高精度。更有趣的是,本文仅在原始VIT之后两个月就发布了!
等。 通过注意力训练数据有效的图像变压器和蒸馏在本文中,我将讨论作者称为DEIT(数据效率图像变压器)的模型,以及如何从头开始实现体系结构。由于DEIT直接源自VIT,因此强烈建议在阅读本文之前对VIT具有先验知识。您可以在本文末尾的参考文献[3]中找到我以前的文章。
Deit的想法
Deit利用知识蒸馏的想法。如果您尚不熟悉该术语,那么在培训阶段,它本质上是一种将模型(老师)知识转移到另一个(学生)的方法。在这种情况下,DEIT充当学生,而老师是基于CNN的模型Regnet。在推论阶段的后期,我们将完全省略Regnet老师,并让Deit学生自己做出预测。
知识蒸馏 老师 学生 类令牌 蒸馏令牌#(1)
x