状态空间模型(SSM)具有与变压器的注意模块相比保持线性计算复杂性的优势,并且已将视觉任务应用于视觉任务作为一种新型强大的视觉基础模型。受到观察的启发,即视觉变压器(VIT)的最终预测仅基于最有用的代币的子集,我们采取了新的步骤,即通过基于令牌的修剪来提高基于SSM的视力模型的效率。但是,即使经过广泛的微调,为VIT设计的现有代币修剪技术的直接应用也无法提供良好的性能。为了解决此问题,我们重新审视了SSM的独特计算特征,并发现Naive Application破坏了顺序令牌位置。这种洞察力促使我们设计了一种专门针对基于SSM的视力模型的新颖和通用的代币修剪方法。我们首先引入一种修剪感知的隐藏状态对准方法,以稳定剩余令牌以增强性能的邻里。此外,根据我们的详细分析,我们提出了一种适用于SSM模型的令牌重要性评估方法,以指导令牌修剪。采用有效的实施和实际加速方法,我们的方法带来了实际的加速。广泛的实验表明,我们的方法可以实现大量的计算减少,而对不同任务的性能的影响最小。值得注意的是,我们在成像网上获得了81.7%的精度,而修剪的plainmamba-l3的拖鞋降低了41.6%。此外,我们的工作为了解基于SSM的视力模型的行为提供了更深入的见解。
主要关键词