基于深度学习(DL)的一般图像表示学习(IRL)对于卫星图像引起了极大的兴趣,因为它的能力:i)通过自我监督的学习来模拟大量的大量免费可用遥感(RS)数据,从而大大降低了标记数据的要求; ii)将各种RS问题概括为下游任务。基于学习的方法最初为在RS图像上使用自我监督的IRL铺平了道路(例如[1],[2])。这种方法通过最大化同一图像的两种观点之间的一致性来对卫星图像表示与卷积神经网络(CNN)进行对比度学习,这是通过数据增强策略生成的。关于RS IRL的最新研究集中在卫星图像的掩盖数据建模上,例如[3] - [10]。他们通过遮罩的自动编码器(MAE)促进了自我监督的学习,并具有视觉变压器(VITS)。通过重建卫星图像,用遮盖的零件执行有效的IRL,即他们学习了描述图像的视觉内容的功能,这些功能可用作调整下游任务的专用模型的起点。最近对MAE对卫星图像IRL的兴趣取决于两个主要原因。首先,与对比的自我监督学习相反,MAE能够学习图像表示,而无需应用任何数据增强策略。这对于卫星图像特别重要,因为大多数数据增强策略都是为自然图像而设计的,并且它们直接适应卫星可能总是可行的。)。第二,已经表明,与VIT相结合的MAE可以根据训练数据的数量成比例地将其缩放到较大的DL模型中[11],[12]。但是,当使用MAE时,所得图像表示往往为较低的语义水平[13]。这防止了他们的全部潜力,用于需要更高级别卫星图像语义的许多下游任务(例如,场景分类,土地地图生成等。
抽象的气候降低降级,这是从低分辨率模拟中生成高分辨率气候数据的过程,对于理解和适应区域和本地规模的气候变化至关重要。深度学习方法已被证明在解决此问题方面很有用。但是,存在研究通常集中在一个特定任务,位置和变量的培训模型上,因此它们的可推广性和可传递性受到限制。在本文中,我们评估了培训深度学习对多种气候数据集的深度学习模式的效果,以了解更多可靠和可转移的表示形式。我们使用CNN,傅立叶核电运算符(FNOS)和视觉变压器(VIT)评估体系结构零射击传递性的有效性。我们以实质性地评估了降尺度模型的空间,可变和产物的可传递性,以了解这些不同体系结构类型的普遍性。
背景:基于 Transformer 的模型在医学成像和癌症成像应用中越来越受欢迎。许多最近的研究表明,基于 Transformer 的模型可用于脑癌成像应用,例如诊断和肿瘤分割。目的:本研究旨在回顾不同的视觉变换器 (ViT) 如何有助于利用脑图像数据推进脑癌诊断和肿瘤分割。本研究考察了为增强脑肿瘤分割任务而开发的不同架构。此外,它还探讨了基于 ViT 的模型如何增强卷积神经网络在脑癌成像中的性能。方法:本综述按照 PRISMA-ScR(系统评价和荟萃分析扩展范围界定综述的首选报告项目)指南进行研究搜索和研究选择。搜索包括 4 个流行的科学数据库:PubMed、Scopus、IEEE Xplore 和 Google Scholar。搜索词的制定涵盖了干预措施(即 ViT)和目标应用(即脑癌成像)。研究选择的标题和摘要由 2 名审阅者独立完成,并由第三名审阅者验证。数据提取由 2 名审阅者完成,并由第三名审阅者验证。最后,使用叙述方法合成数据。结果:在检索到的 736 项研究中,有 22 项(3%)被纳入本综述。这些研究发表于 2021 年和 2022 年。这些研究中最常见的任务是使用 ViT 进行肿瘤分割。没有研究报告早期发现脑癌。在不同的 ViT 架构中,基于移位窗口变压器的架构最近成为研究界最受欢迎的选择。在所包含的架构中,UNet transformer 和 TransUNet 具有最多的参数,因此需要多达 8 个图形处理单元的集群进行模型训练。脑肿瘤分割挑战数据集是所包含研究中使用的最流行的数据集。ViT 与卷积神经网络以不同的组合使用,以捕获输入脑成像数据的全局和局部背景。结论:可以说,Transformer 架构的计算复杂性是推动该领域发展和实现临床转化的瓶颈。本综述提供了有关该主题的当前知识状态,本综述的结果将有助于医学人工智能及其在脑癌应用领域的研究人员。
摘要 - 占对象检测是在各种高安全地点执行的关键任务,包括机场,火车施工,地铁和港口。每小时检查数千张X射线图像的持续和乏味的工作可能会在精神上征税。因此,深层神经网络(DNN)可用于自动化X射线图像分析过程,提高效率并减轻安全人员的检查负担。通常在相关文学中使用的神经体系结构是卷积神经网络(CNN),而视觉变压器(VIT)很少使用。为了解决这一差距,本文对X射线图像中非法项目检测的相关VIT体系结构进行了全面评估。这项研究利用了变压器和杂化主链,例如Swin和Nextvit,以及探测器,例如Dino和RT-Detr。结果证明了Dino Transformer探测器在低数据策略,令人印象深刻的Yolov8实时性能以及混合NextVit主链的有效性中的出色准确性。索引术语 - 对象检测,X射线,视觉变压器,深神经网络
近年来,变形金刚[9]在各种计算机视觉任务[10],[11],[12],[13]中表现出了不前期的成功。变压器的能力长期以来一直归因于其注意力模块。因此,已经提出了许多基于注意力的令牌混合器[4],[5],[14],[15],[16],目的是为了增强视觉传输(VIT)[11]。尽管如此,一些工作[17],[18],[19],[20],[21]发现,通过用空间MLP [17],[22],[23]或傅立叶变换[18]等简单操作员更换变压器中的注意模块,结果模型仍然会产生令人鼓舞的性能。沿着这条线,[24]将变压器摘要为一种称为元构造器的通用体系结构,并假设是元构造者在实现竞争性能中起着至关重要的作用。To verify this hypothesis, [24] adopts embarrassingly simple operator, pooling, to be the token mixer, and discovers that PoolFormer effectively outperforms the delicate ResNet/ViT/MLP-like baselines [1], [2], [4], [11], [17], [22], [25], [26], which con- firms the significance of MetaFormer.
抽象虽然端到端(E2E)具有基于HIFI-GAN的神经声码器(例如vits and jets)可以以快速推理速度实现类似人类的语音质量,这些模型仍然有空间可以通过CPU使用CPU来进一步提高推理速度,因为基于HIFI-GAN的神经声码器单元是一种瓶颈。此外,HIFI-GAN不仅被广泛用于TT,而且用于许多语音和音频应用。在维持合成质量的同时,已经提出了多式(MS)-HIFI-GAN,ISTFTNET和MS-ISTFT-HIFI-GAN。尽管在ISTFTNET和MS-ISTFT-HIFI-GAN中引入了基于短期的傅立叶变换(ISTFT)的快速上取样,但我们首先发现ISTFT层的预测中间特征输入与原始STFT层完全不同,这是由于ISTFT中的重叠式dancy dancy dancy造成的。为了进一步提高合成质量和推理速度,我们提出了FC-HIFI-GAN和MS-FC-HIFI-GAN,通过引入可训练的完全连接(FC)的基于基于重叠的ADD操作而不是ISTFT层的可训练的完全连接(FC)层的快速上采样。对于看不见的说话者合成和E2E TTS条件的实验结果表明,所提出的方法可以稍微加速推理速度,并显着提高基于JETS的E2E TTS的合成质量,而不是ISTFTNET和MS-ISTFTNET和MS-ISTFTNET和MS-ISTFTNET。因此,ISTFT层可以用基于HIFI-GAN基于HIFI-GAN的神经声码编码器中的基于重叠的ADD操作的提议的可训练FC层的上采样代替。
摘要 — 癫痫是一种以反复发作、无诱因癫痫发作为特征的神经系统疾病,早期诊断对于有效的管理和治疗至关重要。然而,由于癫痫发作的微妙性质和大脑活动模式的复杂性,癫痫的诊断,特别是在早期阶段,仍然具有挑战性。在本研究中,我们引入了医学信息视觉转换器 (MIVT),这是一种深度学习架构,专门设计用于从多模态神经影像数据中改善早期癫痫诊断。我们的模型整合了医学知识和最先进的视觉转换器 (ViT) 的见解,以提高癫痫发作检测和定位的准确性和可解释性。MIVT 利用脑电图 (EEG) 丰富的空间和时间特征,使系统能够学习与早期癫痫发作前兆和生物标志物相对应的判别特征。我们在大型多模态癫痫数据集上证明了 MIVT 的有效性,其性能优于传统深度学习模型,即 Inception V3、ResNet-50、VGG-16 和 AlexNet,优势高达 17%。我们的结果表明,MIVT 模型的表现优于现有技术,诊断准确率为 93.55%,特异性为 88.89%,AUC 为 98.72%,精确率为 86.67%,召回率为 100%。它显示出弥合机器学习模型与临床实践之间差距的潜力。
摘要 - 精确农业专注于自动杂草检测,以改善输入的使用并最大程度地减少除草剂的施用。提出的纸张概述了一个视觉变压器(VIT)模型,用于杂草检测,该模型应对农作物和杂草的相似之处,尤其是在复杂的,多样化的环境中,这是由于农作物和杂草的相似性而引起的。该模型是通过使用高分辨率无UAV图像在有机胡萝卜场上拍摄的具有农作物,杂草和背景的高分辨率的无UAV图像的图像进行训练的。由于包括自我注意力的VIT机制的性质,这使其能够捕获长期的空间依赖性,因此这种方法可以很好地将作物行与排间杂草间簇区分开。解决了类不平衡的问题并改善了斑块的通用性,使用了数据预处理技术(例如贴片提取和增强)。在分类中的精度为89.4%,超过了基本模型(例如u-Net和FCN)在实际应用条件下的效率,已证实了所提出的方法的有效性。这种提出的基于VIT的方法是作物管理的明显改善。并为选择性杂草控制提供了前景,以支持更可持续的农业。该模型也可以集成到基于AI的拖拉机中,以实现现场的实时杂草管理。
受VIT的远程建模能力的启发,最近对大型内核卷积进行了广泛的研究和采用,以扩大接受场并提高模型性能,例如采用7×7深度卷积的非凡工作Convnext。尽管这种深度操作员只会消耗几个失败,但由于高内存访问成本,它在很大程度上损害了强大的计算设备的模型效率。例如,Convnext-t具有类似的Resnet-50拖鞋,但在A100 GPU上以完全精确的训练时,只能达到约60%的吞吐量。尽管减小Convnext的内核大小可以提高速度,但它会导致大量的性能退化,这带来了一个具有挑战性的问题:如何在保留其性能的同时加快基于大内核的CNN模型。为了解决这个问题的启发,我们建议将大内核深度卷积分解为沿Channel尺寸的四个平行分支,即小型平方内核,两个正交带内核和一个身份映射。通过这种新的深度卷积,我们建立了一系列的网络作品,即Incepitonnext,不仅享有高通量,而且还保持竞争性表现。例如,inceptionnext-t达到1。6×高训练的吞吐量高于Convnex-T,并且在Imagenet-1k上获得了0.2%的TOP-1准确性提高。我们的抗议inceptionNext可以作为未来建筑设计的经济基线,以减少碳足迹。
