Loading...
机构名称:
¥ 1.0

摘要。作为视觉变压器(VIT)的核心,自我注意力在建模长期空间相互作用方面具有很高的多功能性,因为每个查询都聚集在所有空间位置。尽管VIT在视觉任务中实现了有希望的表现,但自我注意力的复杂性与令牌长度相关。将VIT模型适应需要高输入分辨率的下游任务时,这会导致挑战性问题。前瞻性艺术试图通过引入稀疏的注意力(例如空间减少关注和窗户注意力)来解决这个问题。这些方法的一个常见点是,在计算注意力重量的情况下,所有图像/窗口令牌都连接在一起。在本文中,我们发现注意力重量与造成的计算冗余之间存在很高的相似性。为了解决这个问题,本文引入了新的关注,称为部分注意力,该问题通过减少注意图中的冗余信息来更有效地学习空间相互作用。我们注意力中的每个查询只与一小部分相关令牌相互作用。基于部分关注,我们提出了一个高效而通用的视觉变压器,名为Partialformer,该变压器在视觉任务之间的准确性和计算成本之间达到了良好的权衡。例如,在Imagenet-1K上,PartialFormer-B3超过1.7%的TOP-1准确性,同时节省25%的GFLOPS,而焦点T则超过0.8%,同时节省了30%的GFLOPS。

有效的视力变压器,有部分注意力

有效的视力变压器,有部分注意力PDF文件第1页

有效的视力变压器,有部分注意力PDF文件第2页

有效的视力变压器,有部分注意力PDF文件第3页

有效的视力变压器,有部分注意力PDF文件第4页

有效的视力变压器,有部分注意力PDF文件第5页