摘要 - 脑肿瘤诊断是一项具有挑战性的任务,但对于计划治疗以停止或减慢肿瘤的生长至关重要。在过去的十年中,卷积神经网络(CNN)在医学图像中肿瘤的自动分割中的高性能急剧增加。最近,与CNN相比,视觉变压器(VIT)已成为医学成像的稳健性和效率的核心重点。在本文中,我们提出了一个新颖的3D变压器,称为3D catbrats,用于基于最先进的SWIN变压器的磁共振图像(MRIS),用于使用残留块和通道注意模块的最先进的SWIN变压器进行磁共振图像(MRI)。在Brats 2021数据集上评估了所提出的方法,并实现了在验证阶段超过当前最新方法的平均骰子相似性系数(DSC)的定量度量。索引项 - CNN,变形金刚,VIT,语义段
尽管Vision Transformer(VIT)在计算机视觉方面取得了显着的成功,但由于缺乏内部绘制互动和特征量表的多样性有限,它在密集的预测任务中表现不佳。大多数现有的研究致力于设计视觉特定的变压器来解决上述问题,从而涉及额外的培训前成本。因此,我们提出了一种普通的,无培训的且具有特征增强的vit背骨,并具有指定性的特征性动作,称为Vit-Comer,可促进CNN和Transformer之间的双向相互作用。与现状相比,VIT-COMER具有以下优点:(1)我们将空间金字塔多触发性场卷积特征注入VIT体系结构,从而有效地减轻了VIT中局部信息相互作用和单场表述的有限问题。(2)我们提出了一个简单有效的CNN转换器双向交互模块,该模块在跨层次特征上执行多尺度融合,这对Han-dling密集的预测任务有益。(3)我们评估了在各种密集的预测任务,不同框架和多个高级预训练中VIT-COMER的能力。值得注意的是,我们的VIT-COMER-L在没有额外训练数据的情况下可可Val2017上的AP达到64.3%,而ADE20K Val上的MIOU为62.1%,这两种方法都与最先进的方法相当。我们希望VIT-COMER可以作为密集预测任务的新骨干,以促进未来的研究。该代码将在https://github.com/traffic-x/vit-comer上发布。
摘要 — 在三相四线低压配电系统中,不平衡负载会导致中性电流 (NC) 形成环路,从而导致功率损耗增加和中性电位变化。与传统电力变压器相比,智能变压器 (ST) 具有严格的电流限制以避免过流。然而,其在下游低压电网电压调节方面的优势可以提供调节过度 NC 的能力。本文提出了一种闭环 NC 优化控制,一方面,在满足标准 EN 50160 要求的正常运行中最小化 NC 电流,另一方面,在极端情况下抑制 NC 电流以避免 ST 过流损坏。根据曼彻斯特地区三相四线配电网,通过硬件在环设置和基于不平衡负载曲线下的 350kVA、10kV/400V、ST 供电配电网的案例研究,通过实验测试验证了所提出的控制策略。结果清楚地证明了所提出的NC优化控制策略对NC抑制和最小化的有效性和灵活性。
视觉语言(VL)模型已获得了显着的重点,从而在多模式推理方面取得了显着进步。这些体系结构通常包括视觉编码器,大型语言模型(LLM)和一个将视觉特征与LLM的代表空间保持一致的投影模块。尽管他们成功了,但仍然存在一个关键的限制:愿景编码过程仍然与用户查询相关,通常是以与图像相关的问题的形式。因此,所得的视觉特征可能无法最佳地调整图像的特定元素。为了解决这个问题,我们介绍了QA-Vit,这是一种问题的多模式原因,这是一种问题,将问题意识直接嵌入到视觉编码器中。此集成导致动态视觉特征,重点是提出问题的相关图像方面。QA-VIT是模型 - 静态的,并且可以有效地将其置于任何VL体系结构中。广泛的经验证明了将我们的方法应用于各种多模式体系结构的有效性,从而导致跨不同任务的一致改进,并展示了其以增强视觉和场景文本理解的能力。
摘要:本文解决了香草视觉变压器中与多头自我注意(MHSA)相关的高计算/空间复杂性。为此,我们提出了层次MHSA(H-MHSA),这是一种新颖的方法,以层次的方式计算自我注意力。具体来说,我们首先将输入图像分为通常完成的补丁,每个补丁都被视为令牌。然后,提议的H-MHSA学习本地贴片中的令牌关系,作为局部关系建模。然后,将小斑块合并为较大的贴片,H-MHSA对少量合并令牌的全局依赖性建模。终于,将本地和全球专注的特征汇总为具有强大表示能力的功能。由于我们仅在每个步骤中计算有限数量的令牌的注意力,因此计算负载大大减少。因此,H-MHSA可以在不牺牲细粒度信息的情况下有效地模拟令牌之间的环境关系。与H-MHSA模块合并,我们建立了一个基于层次的变压器网络的家族,即HAT-NET。为了证明帽子网络在场景中的优越性,我们就基本视觉任务进行了广泛的实验,包括图像分类,语义分割,对象titection和实例分段。因此,HAT-NET为视觉变压器提供了新的视角。代码和预估计的模型可在https://github.com/yun-liu/hat-net上找到。
在这项研究中,我们提出了使用多平面和多层跨前(M3T)网络的三维医学图像分类器,以在3D MRI图像中对阿尔茨海默氏病(AD)进行分类。提出的网络协同委托3D CNN,2D CNN和变压器用于准确的AD分类。3D CNN用于执行本机3D表示学习,而2D CNN用于利用大型2D数据库和2D代表学习的预训练权重。使用具有感应性偏置的CNN网络有效地提取局部大脑中与AD相关的异常的信息信息。跨前网络还用于获得CNN后多平面(轴向,冠状和矢状)和多切片图像之间的注意力关系。也可以使用不感应偏置的变压器学习分布在大脑中较大区域的差异。在此期间,我们使用了来自阿尔茨海默氏病神经影像学计划(ADNI)的训练数据集,该计划总共包含4,786 3D T1加权MRI图像。对于有效数据,我们使用了来自三个不同机构的数据集:澳大利亚成像,生物标志物和生活方式旗舰研究(AIBL)(AIBL),开放访问Imaging研究(OASIS)的开放访问系列(OASIS)以及来自培训数据集中的一些ADNI数据。我们提出的M3T基于曲线(AUC)下的区域(AUC)和AD分类的分类精度,与常规的3D分类网络相结合。这项研究表示,所构成的网络M3T在多机构验证数据库中实现了最高的性能,并证明了该方法有效地将CNN和Transformer用于3D医学图像的可行性。
在这项工作中,我们提出了一种新颖的歧视性框架,用于灵巧的掌握生成,称为d外部g rasp tr ansformer(dgtr),能够通过仅使用一个向前的通行方式处理对象点云来预测一组可行的抓握姿势。我们将敏捷的掌握生成作为设定的预测任务,并为其设计一个基于变压器的握把模型。但是,我们确定此设置的预测范式在灵活的掌握领域遇到了几种优化的挑战,并导致限制性能。为了解决这些问题,我们提出了培训和测试阶段的渐进策略。首先,提出了动态静态匹配训练(DSMT)策略,以增强训练阶段的光学稳定性。第二,我们使用一对对抗性损失来实现对抗平衡的测试时间适应(ABTTA),以提高测试阶段的掌握质量。dexgraspnet数据集的实验结果证明了DGTR可以预测具有高质量和多样性的灵活掌握姿势的能力。值得注意的是,在保持质量高的同时,DGTR Sigsigs所预测的Grasp的多样性明显优于先前的多个指标,而没有任何数据预处理。代码可在https://github.com/isee-laboratory/dgtr上找到。
视觉 - 语言变压器(VLT)最近显示出巨大的成功,但同时伴随着大量的计算成本,其中主要原因可以归因于大量的视觉和语言令牌。存在用于压缩VLTS的令牌修剪研究主要遵循基于单模式的方案,但忽略了对齐不同模态来指导令牌修剪过程的关键作用,从而导致重要的代币在另一个模态分支中错误地修剪一个模态。同时,现有的VLT修剪作品也缺乏基于不同输入样本动态压缩每一层的灵活性。为此,我们提出了一个名为M Ultodal的新颖框架,用于加速变化VLT的木质制成d ynamic t ynamic t oken p Runing(MADTP)。具体来说,我们首先引入了精心设计的多模式对齐指导(MAG)模块,该模块可以使相同语义概念的特征与不同的模式相结合,以确保修剪的代币对所有模式都不太重要。我们进一步设计了一种新型的dy-namic令牌修剪(DTP)模块,该模块可以根据不同的输入实例自适应地调节每个层中的令牌压缩比。对各种基准测试的广泛实验表明,MADTP可以显着确定多种模型的计算复杂性,同时保留竞争性能。值得注意的是,当将MADTP应用于NLVR2数据集中的BLIP模型时,可以将GFLOPS降低80%,而性能降低少于4%。该代码可在https://github.com/double125/madtp上找到。
摘要。近年来,自然语言处理领域(NLP)发生了一场革命,文字一代在这一转变中起着关键作用。这种转变不仅限于技术领域,而且还无缝渗透了创意领域,一个很好的例子是歌曲歌词的一代。真正有效的生成模型,例如生成训练的预训练变压器(GPT)-2,需要进行微调作为关键步骤。本文利用了广泛参考的Kaggle数据集的鲁棒性,标题为“歌曲歌词”,仔细探讨了调节三个关键参数的影响:学习率,批处理大小和序列长度。数据集提出了一个引人入胜的叙述,该叙述将学习率视为最有影响力的决定因素,直接影响了产生的歌词的质量和连贯性。在增加批处理大小和扩展序列长度有望增强模型性能的同时,很明显,还有一个饱和点,超出该点的效果受到限制。通过此探索,本文旨在揭开模型校准的复杂世界,并强调战略参数选择在追求抒情卓越方面的重要性。