移动设备已成为AI应用程序的重要推动因素,尤其是在需要实时性能的情况下。Vision Transformer(VIT)由于其高精度而已成为这方面的基本基石。最近的努力致力于开发各种变压器体系结构,这些架构在减少计算要求的同时提供了准确性。但是,现有研究主要集中于通过诸如局部注意力和模型修剪等方法来降低理论计算复杂性,而不是考虑在移动硬件上进行现实的性能。尽管这些优化减少了计算需求,但它们要么引入与数据转换有关(例如,重塑和转置)或不规则计算/数据访问模式相关的其他开销。由于其带宽有限,这些导致在移动设备上的高架开销,这甚至使延迟比移动设备上的Vanilla VIT更糟。在本文中,我们提出了ECP-VIT,这是一个实时框架,该框架采用了受大脑功能网络启发的核心期限原则来指导VIT中的自我注意力,并使VIT模型在智能手机上的部署。我们确定了由数据转换引起的变压器结构中的主要瓶颈,并提出了针对硬件友好的核心外围引导自我注意力,以减少计算需求。此外,我们设计了用于修剪模型中密集数据转换的系统优化。ECP-VIT,提出的算法 - 系统合作量可以达到4的速度。6×至26。在四个数据集的移动GPU上进行9倍:STL-10,CIFAR100,Tinyimagenet和Imagenet。