摘要:本文解决了香草视觉变压器中与多头自我注意(MHSA)相关的高计算/空间复杂性。为此,我们提出了层次MHSA(H-MHSA),这是一种新颖的方法,以层次的方式计算自我注意力。具体来说,我们首先将输入图像分为通常完成的补丁,每个补丁都被视为令牌。然后,提议的H-MHSA学习本地贴片中的令牌关系,作为局部关系建模。然后,将小斑块合并为较大的贴片,H-MHSA对少量合并令牌的全局依赖性建模。终于,将本地和全球专注的特征汇总为具有强大表示能力的功能。由于我们仅在每个步骤中计算有限数量的令牌的注意力,因此计算负载大大减少。因此,H-MHSA可以在不牺牲细粒度信息的情况下有效地模拟令牌之间的环境关系。与H-MHSA模块合并,我们建立了一个基于层次的变压器网络的家族,即HAT-NET。为了证明帽子网络在场景中的优越性,我们就基本视觉任务进行了广泛的实验,包括图像分类,语义分割,对象titection和实例分段。因此,HAT-NET为视觉变压器提供了新的视角。代码和预估计的模型可在https://github.com/yun-liu/hat-net上找到。
摘要 - 脑肿瘤诊断是一项具有挑战性的任务,但对于计划治疗以停止或减慢肿瘤的生长至关重要。在过去的十年中,卷积神经网络(CNN)在医学图像中肿瘤的自动分割中的高性能急剧增加。最近,与CNN相比,视觉变压器(VIT)已成为医学成像的稳健性和效率的核心重点。在本文中,我们提出了一个新颖的3D变压器,称为3D catbrats,用于基于最先进的SWIN变压器的磁共振图像(MRIS),用于使用残留块和通道注意模块的最先进的SWIN变压器进行磁共振图像(MRI)。在Brats 2021数据集上评估了所提出的方法,并实现了在验证阶段超过当前最新方法的平均骰子相似性系数(DSC)的定量度量。索引项 - CNN,变形金刚,VIT,语义段
尽管Vision Transformer(VIT)在计算机视觉方面取得了显着的成功,但由于缺乏内部绘制互动和特征量表的多样性有限,它在密集的预测任务中表现不佳。大多数现有的研究致力于设计视觉特定的变压器来解决上述问题,从而涉及额外的培训前成本。因此,我们提出了一种普通的,无培训的且具有特征增强的vit背骨,并具有指定性的特征性动作,称为Vit-Comer,可促进CNN和Transformer之间的双向相互作用。与现状相比,VIT-COMER具有以下优点:(1)我们将空间金字塔多触发性场卷积特征注入VIT体系结构,从而有效地减轻了VIT中局部信息相互作用和单场表述的有限问题。(2)我们提出了一个简单有效的CNN转换器双向交互模块,该模块在跨层次特征上执行多尺度融合,这对Han-dling密集的预测任务有益。(3)我们评估了在各种密集的预测任务,不同框架和多个高级预训练中VIT-COMER的能力。值得注意的是,我们的VIT-COMER-L在没有额外训练数据的情况下可可Val2017上的AP达到64.3%,而ADE20K Val上的MIOU为62.1%,这两种方法都与最先进的方法相当。我们希望VIT-COMER可以作为密集预测任务的新骨干,以促进未来的研究。该代码将在https://github.com/traffic-x/vit-comer上发布。
LIDAR UPSMPLING对于机器人和自动驾驶汽车的启示系统来说是一项艰巨的任务,这是由于大型场景的稀疏结构稀疏和不规则的结构。最近的作品建议通过将LIDAR数据从3D欧几里得空间传播到2D图像空间中的一个超级分辨率问题来解决此问题。尽管他们的方法可以生成具有细粒细节的高分辨率范围图像,但由此产生的3D点云是10个模糊细节并预测无效的点。在此pa-per中,我们提出了郁金香,这是一种从低分辨率激光雷达输入中重建高分辨率激光圈云的新方法。我们还遵循一种基于图像的方法,但特定地修改了基于Swin-Transformer网络的贴片和窗口几何形状,以更好地拟合范围图像的特性。我们在三个公共现实世界和模拟数据集上进行了几项实验。郁金香在所有相关指标中都优于最先进的方法,并且比以前的工作生成了强大,更现实的点云。该代码可在https://github.com/ethz-asl/tulip.git上找到。
通过社交媒体和变形金刚模型了解躁郁症:挑战和见解葡萄etsrivastava*,Lokesh Boggavarapu*,Anthony Shin*,Anthony Shin*,Avisek Datta,Yingda Lu,runa bhaumik **伊利诺伊州芝加哥**伊利诺伊州芝加哥大学的同等贡献者**相应的社交媒体* (BD)仍然显着未充满意。复杂性是由与抑郁和焦虑相关的语言模式的重叠产生的,使准确的识别挑战。本研究旨在基准在Reddit帖子上训练的各种变压器模型的性能,以将BD与其他心理健康状况区分开。使用高性能生成AI模型(GPT-4O)作为基准,分析表明某些开放小型模型(ex。MISTRAL,LLAMA)在捕获与BD相关的微妙语言线索方面表现出色,以高精度和召回率达到高达0.86的F1得分。但是,BD经常被错误分类为抑郁症(23%–51%),正常(2%–41%)和焦虑症(1%–7%),强调了对改进方法的需求。该研究强调了特定于域数据的重要性以及更细微的模型以增强BD检测准确性,为更有效的心理健康监测和及时干预铺平了道路。
近年来,视觉变形金刚(VIT)已成为计算机视觉任务(例如图像分类,对象检测和分割)的强大而有前途的技术。与依赖层次特征提取的卷积神经网络(CNN)不同,VIT将图像视为斑块和杠杆自我发项机制的序列。但是,它们的高计算复杂性和内存要求对资源受限的边缘设备部署构成重大挑战。为了解决这些局限性,广泛的研究集中在模型压缩技术和硬件感知加速策略上。尽管如此,一项全面的审查系统地将这些技术及其在精确,效率和硬件适应性方面进行了对边缘部署的适应性的权衡。这项调查通过提供模型压缩技术的结构化分析,用于推理边缘的软件工具以及VIT的硬件加速策略来弥合此差距。我们讨论了它们对准确性,效率和硬件适应性的影响,突出了关键的挑战和新兴的研究方案,以推动Edge平台上的VIT部署,包括图形处理单元(GPU),张量处理单元(TPU)(TPU)和现场编程的门阵列(FPGAS)。目标是通过当代指南,以优化VIT,以在边缘设备上进行有效部署,以激发进一步的研究。
近年来,视觉变形金刚(VIT)已成为计算机视觉任务(例如图像分类,对象检测和分割)的强大而有前途的技术。与依赖层次特征提取的卷积神经网络(CNN)不同,VIT将图像视为斑块和杠杆自我发项机制的序列。但是,它们的高计算复杂性和内存要求对资源受限的边缘设备部署构成重大挑战。为了解决这些局限性,广泛的研究集中在模型压缩技术和硬件感知加速策略上。尽管如此,一项全面的审查系统地将这些技术及其在精确,效率和硬件适应性方面进行了对边缘部署的适应性的权衡。这项调查通过提供模型压缩技术的结构化分析,用于推理边缘的软件工具以及VIT的硬件加速策略来弥合此差距。我们讨论了它们对准确性,效率和硬件适应性的影响,突出了关键的挑战和新兴的研究方案,以推动Edge平台上的VIT部署,包括图形处理单元(GPU),张量处理单元(TPU)(TPU)和现场编程的门阵列(FPGAS)。目标是通过当代指南,以优化VIT,以在边缘设备上进行有效部署,以激发进一步的研究。
现在几乎可以测量植物的所有部分,但是评估植物基因组的大小仍然具有挑战性。尽管可以在显微镜下测量染色体大小(Albini,1994),但通常未知单细胞中所有DNA分子的合并长度。在第一个拟南芥基因组序列释放近25年后,对于最重要的模型之一而言,这甚至是正确的。最初,诸如Reassociation Kinetics之类的生化方法(Leutwiler等人,1984),Feulgen光度法(Bennett&Smith,1991),定量凝胶印迹杂交(Francis等人。,1990年),Southern印迹(Fransz等人,2002)和流式细胞仪(Arumuganathan&Earle,1991; Bennett&Leitch,2011)。不幸的是,这些实验方法依赖参考基因组(Bennett等人。,2003)。下一代测序技术的兴起(Metzker,2010年)启用了基于K-MER配置文件或唯一K-Mers计数的新方法(Li&Waterman,2003;Marçais&Kingsford,2011年)。水母(Marçais&Kingsford,2011年),Kmergenie(Chikhi&Medvedev,2014年),
我们报告了能够对齐多个核苷酸序列的卷积变压器神经网络。神经网络基于图像分割中常用的U-NET,我们采用了该神经网络将其用于将未对准序列转换为对齐序列的U-NET。对于对齐场景,我们的ALI-U-NET神经网络已经接受过培训,在大多数情况下,它比MAFFT,T-Coffee,Muscle和Clustal Omega等程序更准确,同时比单个CPU核心上的类似准确的程序快得多。的限制是,神经网络仍针对某些对齐问题进行了专门训练,并且对于以前从未见过的差距分布而表现不佳。此外,该算法当前与48×48或96×96核苷酸的固定尺寸比对窗口一起工作。在此阶段,我们将研究视为概念证明,确信目前的发现可以扩展到更大的一致性,并在不久的将来将其扩展到更复杂的一致性方案。
