最近,在资源受限的移动设备上,轻巧的视觉变形金刚(VITS)具有出色的性能和较低的潜伏期,与轻量级卷积神经网络(CNNS)组成。搜索者发现了轻巧的VIT和轻量级CNN之间的许多结构连接。但是,尚未对块结构,宏和微观设计的显着建筑差异进行检查。在这项研究中,我们从VIT的角度和震撼人心的移动设备前景中重新审视了轻量级CNN的有效性。指定,我们通过集成了轻量级VIT的有效建筑设计,从而增强了标准轻量级CNN(即Mobilenetv3)的移动友好性。这最终带有一个新的纯轻质CNN家族,即重新投资。广泛的实验表明,重新投资优于现有的最先进的轻量级VIT,并在各种视觉任务中表现出有利的延迟。值得注意的是,在ImageNet上,Repvit在iPhone 12上以1.0毫秒的延迟达到了80%的前1次精度,这是我们最佳的首次使用轻量级型号。此外,当Repvit与SAM遇到SAM时,我们的Repvit-SAM比Advanced Mobilesam可以实现近10×的推理。代码和模型可在https://github.com/thu-mig/repvit上找到。
Vision Transformers(VIT)已成为代表学习中最新的架构,利用自我注意的机制在各种任务中脱颖而出。vits将图像分为固定尺寸的补丁,将其限制为预定义的大小,并需要进行预处理步骤,例如调整大小,填充或裁剪。这在医学成像中构成了挑战,尤其是在肿瘤等不规则形状的结构中。一个固定的边界盒子量产生的输入图像具有高度可变的前景与地面比率。进行医学图像可以降低信息并引入人工制品,从而影响诊断。因此,对感兴趣区域的裁缝量化作物可以增强特征代表能力。此外,大图像在计算上是昂贵的,尺寸较小,风险信息损失,表现出计算准确性的权衡。我们提出了Varivit,这是一种改进的VIT模型,该模型制定了用于处理可变图像尺寸的同时保持连贯的贴片大小。varivit采用新颖的位置嵌入调整大小方案,用于可变数量的斑块。我们还将在变量内实施一种新的批处理策略,以降低计算复杂性,从而导致更快的培训和推理时间。在我们对两个3D脑MRI数据集的评估中,变量超过了胶质瘤基因型预测和脑肿瘤分类中的香草vits和重新连接。它的F1得分分别为75.5%和76.3%,学习了更多的判别特征。与常规体系结构相比,我们提出的批处理策略将计算时间最多减少了30%。这些发现强调了图像表示学习中变量的功效。关键字:视觉变压器,建筑,表示,肿瘤分类
随着视觉变换器 (ViT) 的巨大成就,基于变换器的方法已成为解决各种计算机视觉任务的新范式。然而,最近的研究表明,与卷积神经网络 (CNN) 类似,ViT 仍然容易受到对抗性攻击。为了探索不同结构模型的共同缺陷,研究人员开始分析跨结构对抗性迁移能力,而这方面仍未得到充分研究。因此,在本文中,我们专注于 ViT 攻击,以提高基于变换器和基于卷积的模型之间的跨结构迁移能力。先前的研究未能彻底调查 ViT 模型内部组件对对抗性迁移能力的影响,导致性能较差。为了克服这个缺点,我们开展了一项激励研究,通过线性缩小 ViT 模型内部组件的梯度来分析它们对对抗性迁移能力的影响。基于这项激励研究,我们发现跳跃连接的梯度对迁移能力的影响最大,并相信来自更深块的反向传播梯度可以增强迁移能力。因此,我们提出了虚拟密集连接方法(VDC)。具体来说,在不改变前向传播的情况下,我们首先重构原始网络以添加虚拟密集连接。然后,在生成对抗样本时,我们通过虚拟密集连接反向传播更深层注意力图和多层感知器(MLP)块的梯度。大量实验证实了我们提出的方法优于最先进的基线方法,ViT模型之间的可迁移性提高了8.2%,从ViT到CNN的跨结构可迁移性提高了7.2%。
生成的AI模型,例如稳定的扩散,DALL-E和MIDJOURNEY,最近引起了广泛的关注,因为它们可以通过学习复杂,高维图像数据的分布来产生高质量的合成图像。这些模型现在正在适用于医学和神经影像学数据,其中基于AI的任务(例如诊断分类和预测性建模)通常使用深度学习方法,例如卷积神经网络(CNNS)和视觉变形金刚(VITS)(VITS),并具有可解释性的增强性。在我们的研究中,我们训练了潜在扩散模型(LDM)和deno的扩散概率模型(DDPM),专门生成合成扩散张量张量成像(DTI)地图。我们开发了通过对实际3D DTI扫描进行训练以及使用最大平均差异(MMD)和多规模结构相似性指数(MS-SSSIM)评估合成数据的现实主义和多样性来生成平均扩散率的合成DTI图。我们还通过培训真实和合成DTI的组合来评估基于3D CNN的性别分类器的性能,以检查在培训期间添加合成扫描时的性能是否有所提高,作为数据增强形式。我们的方法有效地产生了现实和多样化的合成数据,有助于为神经科学研究和临床诊断创建可解释的AI驱动图。
鲁棒性是在将深度学习模型纳入野外时要考虑的重要方面。nuber的研究一直致力于研究视觉变压器(VIT)的鲁棒性,这些研究一直是自2020年代黎明以来作为视觉任务的主流背部选择。最近,一些大型内核探手会以令人印象深刻的性能和效率卷土重来。但是,仍然尚不清楚大型内核网络是否稳健以及其稳健性的归因。在本文中,我们首先对大型内核弯曲的鲁棒性及其与典型的小核对应物的差异进行了全面评估,并在六个不同的稳健性基准数据集中进行了差异。然后分析其强大鲁棒性背后的根本因素,我们设计了来自定量和定性观念的实验,以揭示与典型的Convnets完全不同的大核转交曲线的诱因。我们的实验首次证明了纯CNN可以实现具有可比性甚至优于VIT的实质性鲁棒性。我们对遮挡方差的分析,内核注意模式和频率特征为鲁棒性提供了新的见解。代码可用:https://github.com/lauch1ng/lkrobust。
到目前为止,卷积神经网络 (CNN) 一直是视觉数据的实际模型。最近的研究表明,(Vision) Transformer 模型 (ViT) 可以在图像分类任务上实现相当甚至更优异的性能。这就提出了一个核心问题:Vision Transformer 如何解决这些任务?它们是像卷积网络一样工作,还是学习完全不同的视觉表示?通过分析图像分类基准测试中 ViT 和 CNN 的内部表示结构,我们发现这两种架构之间存在显著差异,例如 ViT 在所有层上都有更统一的表示。我们探索了这些差异是如何产生的,发现了自注意力机制发挥的关键作用,它可以实现全局信息的早期聚合,而 ViT 残差连接则可以将特征从较低层强烈传播到较高层。我们研究了对空间定位的影响,证明 ViT 成功地保留了输入的空间信息,并且不同分类方法的效果显著。最后,我们研究(预训练)数据集规模对中间特征和迁移学习的影响,并最后讨论与 MLP-Mixer 等新架构的连接。
视觉转换器 (ViT) 已证明其在计算机视觉任务中比卷积神经网络 (CNN) 具有更高的精度。然而,为了在资源有限的边缘设备上有效部署,ViT 模型通常需要大量计算。这项工作提出了 Quasar-ViT,一种面向硬件的量化感知 ViT 架构搜索框架,以设计用于硬件实现的高效 ViT 模型,同时保持精度。首先,Quasar-ViT 使用我们的逐行灵活混合精度量化方案、混合精度权重纠缠和超网层缩放技术来训练超网。然后,它应用一种高效的面向硬件的搜索算法,结合硬件延迟和资源建模,从不同推理延迟目标下的超网中确定一系列最佳子网。最后,我们提出了一系列 FPGA 平台上的模型自适应设计,以支持架构搜索并缩小理论计算减少和实际推理加速之间的差距。我们搜索到的模型在 AMD/Xilinx ZCU102 FPGA 上分别实现了 101.5、159.6 和 251.6 帧每秒 (FPS) 的推理速度,对于 ImageNet 数据集的 top-1 准确率分别达到 80.4%、78.6% 和 74.9%,始终优于之前的研究。
人类行动识别(HAR)涵盖了监视各个领域的人类活动的任务,包括但不限于医学,教育,娱乐,视觉监视,视频检索以及对异常活动的识别。在过去十年中,HAR领域通过利用卷积神经网络(CNN)和经常性的神经网络(RNN)来有效提取和理解复杂的信息,从而增强了HAR系统的整体性能,从而取得了实质性的进展。最近,计算机视觉的领域见证了视觉变压器(VIT)的启示作为有效的解决方案。超出图像分析的范围,已验证了变压器体系结构的功效,从而将其适用性扩展到了不同的视频相关任务上。值得注意的是,在这一景观中,研究界表现出对HAR的浓厚兴趣,承认其多种效用并在各个领域中广泛采用。本文旨在提出一项涵盖CNN的涵盖调查,鉴于它们在HAR领域的重要性,RNNS对VIT的发展。通过对现有文献进行彻底研究并探索新兴趋势,本研究对该领域的累积知识进行了批判性分析和综合。此外,它还研究了正在进行的开发混合方法的努力。遵循此方向,本文提出了一种新型的混合模型,该模型旨在整合CNN和VIT的固有优势。
状态空间模型(SSM)具有与变压器的注意模块相比保持线性计算复杂性的优势,并且已将视觉任务应用于视觉任务作为一种新型强大的视觉基础模型。受到观察的启发,即视觉变压器(VIT)的最终预测仅基于最有用的代币的子集,我们采取了新的步骤,即通过基于令牌的修剪来提高基于SSM的视力模型的效率。但是,即使经过广泛的微调,为VIT设计的现有代币修剪技术的直接应用也无法提供良好的性能。为了解决此问题,我们重新审视了SSM的独特计算特征,并发现Naive Application破坏了顺序令牌位置。这种洞察力促使我们设计了一种专门针对基于SSM的视力模型的新颖和通用的代币修剪方法。我们首先引入一种修剪感知的隐藏状态对准方法,以稳定剩余令牌以增强性能的邻里。此外,根据我们的详细分析,我们提出了一种适用于SSM模型的令牌重要性评估方法,以指导令牌修剪。采用有效的实施和实际加速方法,我们的方法带来了实际的加速。广泛的实验表明,我们的方法可以实现大量的计算减少,而对不同任务的性能的影响最小。值得注意的是,我们在成像网上获得了81.7%的精度,而修剪的plainmamba-l3的拖鞋降低了41.6%。此外,我们的工作为了解基于SSM的视力模型的行为提供了更深入的见解。
·提议的随机差异量化(SDQ)[ICML 2022],一种有效的和有效的混合精确定量量化技术优于·提出了有效的变异感知视觉变压器(VIT)量化框架[TMLR]。这是分析和定位VIT量化变化的第一项工作。我们对VIT的变化的解决方案导致在不同的VIT模型(DEIT,SWIN,SRET)跨Imagenet-1k数据集上的最新精度。·通过核心选择[TMLR]提出一个新的角度,以提高量化感知训练的效果。我们的方法可以在ImageNet-1k数据集上获得4位RESNET-18的68.39%,仅10%子集。
