摘要 - Vision Transformer(VIT)架构越来越流行,并广泛用于处理计算机视觉应用。他们的主要特征是通过自我发挥机制提取全球信息的能力,表现优于早期的卷积神经网络。但是,VIT部署和性能随着它们的规模,可训练的参数数量和操作而稳步增长。此外,自我注意力的计算和记忆成本随着图像分辨率四次增加。一般而言,由于许多硬件和环境限制(例如处理和计算功能),在现实世界应用中使用这些架构是一项挑战。因此,本调查研究了最有效的方法,以确保亚最佳估计性能。更详细地,将分析四个高效类别:紧凑的体系结构,修剪,知识蒸馏和量化策略。此外,已经引入了一种称为高效错误率的新指标,以便在推理时间(例如参数,钻头,拖船和模型大小)时对模型的功能进行标准化和比较模型的功能。总而言之,本文首先数学上定义了用于提高视觉变压器,描述和讨论最新方法的策略,并在不同的应用程序场景上分析其性能。在本文结束时,我们还讨论了开放的挑战和有希望的研究方向。
主要关键词