由于遥感中的空间冗余,含有丰富信息的稀疏令牌通常参与自我注意事项(SA),以减少计算中的总体令牌数量,从而避免VI-Sion变形金刚中的高计算成本问题。但是,这种方法通常通过手工制作或平行不友好的设计获得稀疏的令牌,从而提出了挑战,以在效率和性能之间达到更好的平衡。与它们不同,本文建议使用可学习的元代币来制定稀疏令牌,这些代币有效地学习了关键信息,同时提高了推理速度。从技术上讲,元代币首先是通过跨注意力从图像令牌初始初始化的。然后,我们提出双重交叉注意(DCA),以促进图像令牌和元代币之间的信息交换,在该图像令牌和元代币之间,它们在双分支结构中作为查询和钥匙(值)代币,可显着降低与自我注意相比的计算复杂性。通过在早期阶段使用DCA,具有密集的视觉令牌,我们获得了具有各种尺寸的层次结构Lemevit。分类和密集的词典任务的结果表明,Lemevit具有显着性1。7×加速,更少的参数和竞争性能,并且在效率和性能之间取得了更好的权衡。该代码在https://github.com/vitae-transformer/lemevit上发布。
我们引入了Elevit,这是一种新颖的视觉变压器,可用于图像处理任务。与可持续计算的趋势保持一致,高架可以解决对轻质和快速模型的需求,而不必通过主要使用元素智能产品而不是传统的矩阵乘法来重新定义多头注意机制,而不是损害多头注意机制。这种修改保留了敏捷功能,同时在卷积投影框架内启用多个多头大小块,从而导致具有较少参数和提高训练和推理效率的模型,尤其是对于模仿者复杂的数据集。针对最先进的视觉变形金刚的基准测试在低数据制度数据集(如CIFAR-10,CIFAR-100和TINY-IMAGENET-200)上展示了竞争性能。
Vision Transformers(VIT)已成为代表学习中最新的架构,利用自我注意的机制在各种任务中脱颖而出。vits将图像分为固定尺寸的补丁,将其限制为预定义的大小,并需要进行预处理步骤,例如调整大小,填充或裁剪。这在医学成像中构成了挑战,尤其是在肿瘤等不规则形状的结构中。一个固定的边界盒子量产生的输入图像具有高度可变的前景与地面比率。进行医学图像可以降低信息并引入人工制品,从而影响诊断。因此,对感兴趣区域的裁缝量化作物可以增强特征代表能力。此外,大图像在计算上是昂贵的,尺寸较小,风险信息损失,表现出计算准确性的权衡。我们提出了Varivit,这是一种改进的VIT模型,该模型制定了用于处理可变图像尺寸的同时保持连贯的贴片大小。varivit采用新颖的位置嵌入调整大小方案,用于可变数量的斑块。我们还将在变量内实施一种新的批处理策略,以降低计算复杂性,从而导致更快的培训和推理时间。在我们对两个3D脑MRI数据集的评估中,变量超过了胶质瘤基因型预测和脑肿瘤分类中的香草vits和重新连接。它的F1得分分别为75.5%和76.3%,学习了更多的判别特征。与常规体系结构相比,我们提出的批处理策略将计算时间最多减少了30%。这些发现强调了图像表示学习中变量的功效。关键字:视觉变压器,建筑,表示,肿瘤分类
在数字化时代,手写文档识别具有多种应用,例如历史信息保存,邮政地址识别等。对无价文化宝藏的保护和分析在很大程度上取决于历史文档中手写的数字字符串识别。认可的主要挑战是写作风格的变化,噪声,扭曲和有限的数据。本文提出了一种新的方法,可以克服包含数字字符串的复杂,褪色和旧手写文档的困难。目标是创建一个可靠有效的系统,该系统自动识别古代手稿的数字字符串,有助于数字化记录。因此,本文提出了一个强大的视觉变压器框架,以识别手写数字字符串,而不会从较小数据集的未清洗图像中分割数字。所提出的方法是一个四步过程,包括预处理,通过象征化提取特征提取,使用视觉变压器的注意机制识别以及使用光束搜索解码器进行结果解码。将提出方法的性能与由卷积神经网络和长期记忆(CNN-LSTM)组成的混合方法进行比较。所提出的方法达到了56%的单词准确性,损失在更少的时间内低于0.6。结果表明,所提出的模型是一个快速学习者,可以在预期更少的时间内的实时场景中使用。这项研究的结果会影响邮政服务的数字化。在本文中还借助局部可解释的模型 - 不合Snostic解释(LIME)技术讨论了所提出的深度学习模型绩效解释。通过为实时应用程序提供软件即服务(SAAS)来概括所提出的方法的概括,以作为未来的研究方向。
视觉转换器 (ViT) 已证明其在计算机视觉任务中比卷积神经网络 (CNN) 具有更高的精度。然而,为了在资源有限的边缘设备上有效部署,ViT 模型通常需要大量计算。这项工作提出了 Quasar-ViT,一种面向硬件的量化感知 ViT 架构搜索框架,以设计用于硬件实现的高效 ViT 模型,同时保持精度。首先,Quasar-ViT 使用我们的逐行灵活混合精度量化方案、混合精度权重纠缠和超网层缩放技术来训练超网。然后,它应用一种高效的面向硬件的搜索算法,结合硬件延迟和资源建模,从不同推理延迟目标下的超网中确定一系列最佳子网。最后,我们提出了一系列 FPGA 平台上的模型自适应设计,以支持架构搜索并缩小理论计算减少和实际推理加速之间的差距。我们搜索到的模型在 AMD/Xilinx ZCU102 FPGA 上分别实现了 101.5、159.6 和 251.6 帧每秒 (FPS) 的推理速度,对于 ImageNet 数据集的 top-1 准确率分别达到 80.4%、78.6% 和 74.9%,始终优于之前的研究。
由疾病和害虫造成的农作物损失对全球农业带来了重大挑战,花生作物尤其容易受到其有害作用的影响。这项研究介绍了花生视觉变压器(GNVIT)模型,这是一种新颖的方法,该模型在Imagenet数据集上介绍了预训练的视觉变压器(VIT)。主要目标是检测和分类影响花生作物的各种害虫。使用IP102的综合数据集进行了严格的培训和评估,其中包括thrips,蚜虫,军虫和线虫等害虫。使用可靠性指标(包括F1得分,召回和总体准确性)评估了GNVIT模型的有效性。与GNVIT的数据增强导致训练准确性显着提高,达到99.52%。比较分析强调了GNVIT模型的出色性能,特别是准确性,与最新的方法相比。这些发现强调了GNVIT等深度学习模型的潜力,它为花生作物提供可靠的害虫分类溶液。采用先进的技术解决方案的部署使我们更接近减少农作物损失并增强不断增长的人口的全球粮食安全的总体目标。
自我监督的学习吸引了越来越多的关注,因为它在没有注释的情况下从数据中学习了数据驱动的代表。基于视觉变压器的自动编码器(VIT-AE)(He等人,2021)是一种最近的自我监督的学习技术,它采用补丁掩盖策略来学习有意义的潜在空间。在本文中,我们专注于改善VIT-AE(绰号为VIT-AE ++),以更有效地表示2D和3D医疗信息。我们提出了两个新的损失功能,以增强训练阶段的表示。第一个损失术语旨在通过考虑建立依赖性并间接改善表示形式来改善自我重建。第二损失项的利用对比损失,以直接从两个随机掩盖的视图中优化表示形式。作为独立的贡献,我们将Vit-ae ++扩展到3D fash-im,以进行体积医学图像。我们在自然图像和医学图像上广泛评估VIT-AE ++,这表明对香草Vit-Ae的持续改善及其优于其他对比学习方法。我们的代码可在https://github.com/chinmay5/vit_ae_plus_plus.git关键字:表示;自学学习;蒙版视觉变压器
在这项研究中,我们证明了在电解图(EEG)回归任务上预处理的混合视觉变压器(VIT)模型的应用。最初接受了图像分类任务的训练,但在脑电图数据进行微调时,与其他模型相比,该模型的性能明显增加,包括相同的体系结构VIT训练而没有Imagenet权重。这一发现挑战了模型概括的传统范围,这表明在看似无关的图像数据上预测的变压器模型可以通过适当的精细调整管道为EEG回归任务提供宝贵的先验。这种方法的成功表明,在视觉任务中,VIT模型提取的功能可以很容易地用于EEG预测建模。我们建议不仅在神经科学和相关领域中利用这种方法,而且通常用于数据收集受实际,财务或道德约束限制的任何任务。我们的结果阐明了对任务明显不同的任务的潜力。
最近视觉变压器模型已成为多种视觉任务的重要模型。这些模型通常是不透明的,具有弱特征可解释性,使用户的预测差。虽然对解释模型决策的事后解决方案的开发产生了兴趣,但这些方法不能广泛应用于不同的变压器体系结构,因为可解释性规则必须基于数据和模型结构的异质性进行相应的变化。此外,目前没有为本质上可解释的变压器构建的方法,该方法能够解释其推理过程并提供忠实的解释。为了缩小这些关键的差距,我们提出了一种新型视觉变压器,称为“可解释的视觉变压器”(Ex-Vit),这是一种可解释的变压器模型,能够共同发现可鲁棒的可解释特征并执行预测。特定于特定的,前vit由可解释的多头注意(E-MHA)模块组成,属性引导的解释器(ATTE)模块具有自我监督的属性引导损失。E-MHA裁缝可解释的注意力权重,能够从具有噪音稳健性的模型决策中从代币中学习可解释的表示表示。与此同时,通过各种属性剖面构成了目标对象的区分属性特征,该特征构成了模型预测的忠实证据。结果,提议的前武率模型可以用各种学习的属性产生忠实而强大的解释。此外,我们为前武器架构开发了一种自我监督的属性引导损失,该体系结构既利用了属性的可行性机制和属性多样性机制来提高学习成分的质量。为了验证和评估我们的方法,我们将前vit应用于几个弱监督的语义细分(WSS)任务,因为这些任务通常依赖于准确的视觉解释来提取对象本地化图。尤其是,通过前视图获得的解释结果被认为是训练WSSS模型的伪分段标签。综合模拟结果幻想表明,我们提出的前武器模型可以达到与监督基线相当的性能,同时仅使用仅使用图像级标签的最先进的黑盒方法超过了最先进的黑盒方法的准确性和解释性。
摘要:针对传统检测方法在IC外观缺陷检测中存在的识别率不高、识别速度慢的问题,提出一种IC外观缺陷检测算法IH-ViT。提出的模型利用CNN和ViT各自的优势,从局部和全局两个角度获取图像特征,最终将两种特征融合进行决策判断缺陷类别,从而获得更高的IC缺陷识别准确率。针对IC外观缺陷主要体现在细节上的差异,传统算法难以识别的问题,对传统ViT进行了改进,在batch内部进行了额外的卷积操作。针对数据集来源多样导致的样本信息不平衡问题,采用双通道图像分割技术,进一步提高IC外观缺陷的识别准确率。最后经过测试,提出的混合IH-ViT模型取得了72.51%的准确率,比单独的ResNet50和ViT模型分别提高了2.8%和6.06%。所提算法可以快速准确地检测出IC外观缺陷状况,有效提高IC封测企业的生产效率。