最近,有效的视觉变压器表现出出色的性能,并且在资源受限的范围内延迟较低。通常,他们在宏观水平上使用4×4贴片嵌入式和4阶段结构,同时在微观级别利用多头配置的同时注意力。本文旨在解决记忆效率高的人中所有设计级别的计算重复。我们发现,使用较大的修补茎不仅降低了内存访问成本,而且还通过利用令牌表示,从早期阶段降低了空间冗余,从而实现了态度性能。fur-hoverore,我们的初步分析表明,在早期阶段的注意力层可以用会议代替,并且后期阶段的几个注意力头在计算上是多余的。为了处理这一点,我们介绍了一个单头注意模块,该模块固有地预先预先冗余,并同时通过相结合的全局和本地信息来提高准确性。在解决方案的基础上,我们引入了Shvit,这是一种单头视觉变压器,获得了最先进的速度准确性权衡。例如,在ImagEnet-1k上,我们的SHVIT-S4在GPU,CPU和iPhone12移动设备上比MobileVitV2×1.0快3.3×,8.1×和2.4倍,而同时更准确。用于使用Mask-RCNN头对MS Coco进行的对象检测和实例分割,我们的模型分别在GPU和移动设备上表现出3.8×和2.0×下骨架潜伏期时,可以与FastVit-SA12进行比较。
尽管Vision Transformer(VIT)在计算机视觉方面取得了显着的成功,但由于缺乏内部绘制互动和特征量表的多样性有限,它在密集的预测任务中表现不佳。大多数现有的研究致力于设计视觉特定的变压器来解决上述问题,从而涉及额外的培训前成本。因此,我们提出了一种普通的,无培训的且具有特征增强的vit背骨,并具有指定性的特征性动作,称为Vit-Comer,可促进CNN和Transformer之间的双向相互作用。与现状相比,VIT-COMER具有以下优点:(1)我们将空间金字塔多触发性场卷积特征注入VIT体系结构,从而有效地减轻了VIT中局部信息相互作用和单场表述的有限问题。(2)我们提出了一个简单有效的CNN转换器双向交互模块,该模块在跨层次特征上执行多尺度融合,这对Han-dling密集的预测任务有益。(3)我们评估了在各种密集的预测任务,不同框架和多个高级预训练中VIT-COMER的能力。值得注意的是,我们的VIT-COMER-L在没有额外训练数据的情况下可可Val2017上的AP达到64.3%,而ADE20K Val上的MIOU为62.1%,这两种方法都与最先进的方法相当。我们希望VIT-COMER可以作为密集预测任务的新骨干,以促进未来的研究。该代码将在https://github.com/traffic-x/vit-comer上发布。
摘要 - 视觉变压器(VIT)在各种计算机视觉任务中都表现出最先进的性能,但是其高计算需求使其对于资源有限的边缘设备不切实际。本文介绍了Microvit,这是一种轻巧的视觉变压器体系结构,通过显着降低计算复杂性,同时保持高精度,从而优化了边缘设备。Microvit的核心是有效的单头注意(ESHA)机制,该机制利用组卷积减少特征冗余,并且仅处理一小部分通道,从而降低了自我注意力的负担。Microvit是使用多阶段元式构建结构设计的,堆叠了多个微型编码器以提高效率和性能。Imagenet-1k和可可数据集上的全面实验表明,微型电视可以达到竞争精度,同时显着改善了3。6×更快的推理速度和降低效率高40%的效率的速度比移动设备系列高40%,这使其适合在资源受限环境(例如移动设备和边缘设备)中部署。索引术语 - 分类,自我注意力,视觉跨前,边缘设备。
阿尔茨海默氏病(AD)是全球残疾的主要原因。早期检测对于预防进展和制定有效的治疗计划至关重要。这项研究旨在开发一种新颖的深度学习(DL)模型,即混合RVIT,以增强AD的检测。所提出的混合-RVIT模型将预训练的卷积神经网络(RESNET-50)与视觉变压器(VIT)集成在一起,以对AD的不同阶段进行分类。用于转移学习,促进电感偏差和特征提取的Resnet-50。同时,VIT处理图像贴片的序列通过自我发项机制捕获长距离关系,从而充当局部全球特征提取器。Hybrid-Rvit模型的训练精度为97%,测试精度为95%,表现优于先前的模型。这证明了其在从脑MRI数据中准确识别和分类广告阶段的潜在疗效。将Resnet-50和VIT结合的混合动力模型在AD检测中表现出卓越的性能,强调了其作为医学专业人员解释和分析脑MRI图像的宝贵工具的潜力。该模型可以显着改善AD的早期诊断和干预策略。
视觉变形金刚在各种计算机视觉任务中取得了令人鼓舞的进步。一个普遍的信念是,这归因于自我注意力在对特征令牌之间的全球依赖性建模中的能力。然而,自我注意力仍然面临着密集的预测任务的几个挑战,包括高计算复杂性和缺乏理想的电感偏见。为了减轻这些问题,重新审视了视觉变压器与Gabor过滤器的潜在优势,并提出了使用卷积的可学习的Gabor过滤器(LGF)。LGF不依赖自我注意力,它用于模拟生物学视觉系统中基本细胞对输入图像的响应。这鼓励视觉变形金刚专注于跨不同尺度和方向的目标的歧视性特征表示。此外,基于LGF设计了仿生焦点视觉(BFV)块。此块从神经科学中汲取灵感,并引入了双路径前进网络(DPFFN),以模仿生物学视觉皮层的平行和级联信息处理方案。此外,通过堆叠BFV块开发了一个称为焦视变压器(FVITS)的金字塔骨干网络的统一家族。实验结果表明,FVIT在各种视觉任务中表现出卓越的性能。在计算效率和可扩展性方面,与其他同行相比,FVIT具有显着优势。
移动设备已成为AI应用程序的重要推动因素,尤其是在需要实时性能的情况下。Vision Transformer(VIT)由于其高精度而已成为这方面的基本基石。最近的努力致力于开发各种变压器体系结构,这些架构在减少计算要求的同时提供了准确性。但是,现有研究主要集中于通过诸如局部注意力和模型修剪等方法来降低理论计算复杂性,而不是考虑在移动硬件上进行现实的性能。尽管这些优化减少了计算需求,但它们要么引入与数据转换有关(例如,重塑和转置)或不规则计算/数据访问模式相关的其他开销。由于其带宽有限,这些导致在移动设备上的高架开销,这甚至使延迟比移动设备上的Vanilla VIT更糟。在本文中,我们提出了ECP-VIT,这是一个实时框架,该框架采用了受大脑功能网络启发的核心期限原则来指导VIT中的自我注意力,并使VIT模型在智能手机上的部署。我们确定了由数据转换引起的变压器结构中的主要瓶颈,并提出了针对硬件友好的核心外围引导自我注意力,以减少计算需求。此外,我们设计了用于修剪模型中密集数据转换的系统优化。ECP-VIT,提出的算法 - 系统合作量可以达到4的速度。6×至26。在四个数据集的移动GPU上进行9倍:STL-10,CIFAR100,Tinyimagenet和Imagenet。
第六代(6G)网络中的抽象进步,再加上车辆到所有设施(V2X)网络中多模式传感的演变,为转化性研究开放了用于多模式的人工智能(AI)应用程序的无线通信和网络管理和网络管理的途径。但是,这个有希望的研究方向通常受到合适数据集的有限可用性的限制。在响应中,本文介绍了一个综合的可配置共模拟框架,该框架集成了最先进的Carla和Sionna模拟器,以生成多模式多视图V2X(MVX)数据集。我们提出了基于AI的新型模型,以预测未来的视线(LOS)阻塞和最佳光束方向以及创新的天线位置优化(APO)解决方案,所有这些解决方案都是由多模式数据集MVX支撑的。我们的框架利用了协作感知,并通过集成激光雷达和无线数据来大大增强V2X通信。彻底的评估表明,我们的协作感知方法在准确性和效率方面优于梁和阻塞预测的传统方法。此外,我们评估了V2X系统中基础结构元素的重要性,并进行了一项计算研究,以说明我们的框架适用于各种操作方案,并且可以用作数字双胞胎解决方案。这项工作不仅通过为网络管理提供多功能框架来为V2X无线通信的领域做出了贡献,还为V2X无线通信环境中的AI应用程序中的多传感器融合的未来研究奠定了基础,以提高未来6G网络的效率和弹性。
人重新识别(REID)旨在在非重叠的摄像机图像中检索相关的人,并且在公共安全领域具有广泛的应用。近年来,随着视觉变压器(VIT)和自我监督的学习技术的发展,基于自我监督的预训练的人的REID的表现得到了极大的改善。人Reid需要提取人体的高度歧视性局部细粒度特征,而传统的VIT则擅长提取与上下文相关的全球特征,从而难以专注于当地的人体特征。为此,本文介绍了最近出现的掩盖图像建模(MIM)自制的学习方法,并通过将掩盖的图像建模和歧视性的损坏性学习和进行训练的人进行训练的任务来有效地提取高质量的全球和本地特征。此人的特征提取方法基于VIT,具有掩盖图像建模(PersonVit)具有无关,可扩展性和强大的概括能力的良好特征,克服了受监督人员REID中难以注释的问题,并在包括MSMT17,Market1501,dukem-comp的公共可用基础数据集中实现了最先进的结果。PersonVit方法的代码和预培训模型将在https://github.com/hustvl/personvit上发布,以促进REID领域的进一步研究。
摘要。脑电图 (EEG) 分析任务对于脑机接口 (BCI) 的发展至关重要。然而,要达到开发稳健、有用的 BCI 的目标,很大程度上取决于 BCI 理解神经动态的速度和准确性。为了实现这一目标,本文详细介绍了预训练视觉变换器 (ViT) 与时间卷积网络 (TCNet) 的集成,以提高 EEG 回归的精度。这种方法的核心在于利用 ViT 的顺序数据处理优势以及 TCNet 的卓越特征提取能力,显着提高 EEG 分析的准确性。此外,我们分析了如何构建最佳补丁以供注意力机制分析的重要性,以平衡速度和准确性。我们的结果表明,回归准确度显著提高,EEGEyeNet 的绝对位置任务的均方根误差 (RMSE) 从 55.4 降至 51.8,优于现有的最先进模型。在不牺牲性能的情况下,我们将该模型的速度提高了一个数量级(最高可提高 4.32 倍)。这一突破不仅为 EEG 回归分析树立了新的标杆,还为未来将 Transformer 架构与针对不同 EEG 数据集的专门特征提取方法相结合的研究开辟了新途径。
在应用于板球分析的计算机视觉领域中,分类击球镜头带来了巨大的挑战,要求细微的理解和分类。板球投篮的分类至关重要,因为它使玩家有效地评估,适应和执行他们的游戏计划,从而塑造比赛的结果。本文介绍了板球击球照片图像数据集(CBSID),这是一个新的基准数据集,其中包含2160个精心注释的板球镜头图像,这些板球拍摄了七个不同的类别。这项研究的核心目标是开发一个能够有效分类图像中板球击球的强大系统。为了解决这个问题,我们提出了一种基于视觉变压器的微调模型,专门适用于板球射击分类,称为板球击球射击视觉变压器(Shot-Vit)。我们提出的方法证明了出色的性能,在CBSID上实现了92.58%的验证精度。shot-Vit在板球射击分类精度中明显胜过建立的模型,例如VGG19,resnet50,i-alexnet和fit_b32,展示了视觉变压器在超过现有的深度学习体系结构方面的显着功能。视觉变压器具有通过自我注意的机制来捕获图像中的全球环境和远程依赖性的能力,从而实现了有效的特征提取和表示,传统模型可能难以实现。板球击球的准确分类对板球教练,球员发展和比赛分析具有深远的影响。它有可能改变培训方法,为球员和教练提供对击球技巧和策略的精确见解,从而为这项运动的整体进步做出了贡献。