Loading...
机构名称:
¥ 1.0

Vision Transformer(VIT)在计算机视觉领域取得了重大步骤。然而,随着模型的深度和输入图像的重新分配增加,与培训和运行的VIT模型相关的计算成本急剧上升。本文提出了一个基于CNN和Vision Trans-trans-trans的混合模型,称为CI2P-VIT。该模型包含一个称为CI2P的模块,该模块利用Compressai编码来压缩图像,然后通过一系列连接生成一系列贴片。CI2P可以替换VIT模型中的贴片嵌入组件,从而无缝集成到现有的VIT模型中。与VIT-B/16相比,CI2P-VIT具有减少到原始四分之一的自我发项层的斑块输入数量。此设计不仅显着降低了VIT模型的计算成本,而且还通过引入CNN的电感偏置特性有效地提高了模型的准确性。VIT模型的精度显着提高。在Animal-10数据集的地面上接受训练时,CI2P-VIT的准确率为92.37%,比VIT-B/16基线提高了3.3%。此外,该模型的计算操作以每秒浮点操作(FLOPS)测量,减少了63.35%,并且在相同的硬件配置上的训练速度增加了2倍。

将图像压缩到视觉变压器的补丁

将图像压缩到视觉变压器的补丁PDF文件第1页

将图像压缩到视觉变压器的补丁PDF文件第2页

将图像压缩到视觉变压器的补丁PDF文件第3页

将图像压缩到视觉变压器的补丁PDF文件第4页

将图像压缩到视觉变压器的补丁PDF文件第5页