基于注意力的变压器已成为实现自然语言处理和计算机视觉等任务的强大范式。但是,与卷积网络相比,变压器通常会显示更高的计算成本和参数计数。这种效率低下会阻碍将变压器部署到资源约束设备(例如边缘设备)上。结构化的修剪技术提出了一个有前途的方向,可以压缩变形金刚的边缘计算方案。本文研究了修剪技术以在视觉变压器中诱导结构化的稀疏性,从而减少了计算要求,同时最大程度地减少准确性降解。目标是为有效的视觉变压器推理开发方法。结构化的修剪在训练时间时通过解决一个优化问题来学习对单个网络组合的重要性得分,该问题试图最大程度地提高任务性能,同时最大程度地减少模型中参数的数量。随后,重要性得分转化为二进制掩码,这些面具修剪不重要的结构,例如特定线性层输出二 - 段或整个注意力头。为了促进诱发稀疏模式的规律性,提出了各种面具分享策略,以使相关构件元素的修剪决策对夫妇进行修剪决策。规律性至关重要,因为由于特定的变压器的特定连接模式,完全独立性排除了某些蒙版组件的去除,从而导致模型实际部署在硬件上时,导致压缩率较低。经验结果表明,在图像分类任务中,组件完全独立的掩蔽优于平衡准确性和稀疏性的共享策略。仍然是实验表明,通过共享和独立面具的混合,提出的修剪方案成功地压缩了视觉变压器的90%,精度仅为4%或70%的压缩率,精度下降小于1%。
主要关键词