摘要:本文解决了香草视觉变压器中与多头自我注意(MHSA)相关的高计算/空间复杂性。为此,我们提出了层次MHSA(H-MHSA),这是一种新颖的方法,以层次的方式计算自我注意力。具体来说,我们首先将输入图像分为通常完成的补丁,每个补丁都被视为令牌。然后,提议的H-MHSA学习本地贴片中的令牌关系,作为局部关系建模。然后,将小斑块合并为较大的贴片,H-MHSA对少量合并令牌的全局依赖性建模。终于,将本地和全球专注的特征汇总为具有强大表示能力的功能。由于我们仅在每个步骤中计算有限数量的令牌的注意力,因此计算负载大大减少。因此,H-MHSA可以在不牺牲细粒度信息的情况下有效地模拟令牌之间的环境关系。与H-MHSA模块合并,我们建立了一个基于层次的变压器网络的家族,即HAT-NET。为了证明帽子网络在场景中的优越性,我们就基本视觉任务进行了广泛的实验,包括图像分类,语义分割,对象titection和实例分段。因此,HAT-NET为视觉变压器提供了新的视角。代码和预估计的模型可在https://github.com/yun-liu/hat-net上找到。
最近,有效的视觉变压器表现出出色的性能,并且在资源受限的范围内延迟较低。通常,他们在宏观水平上使用4×4贴片嵌入式和4阶段结构,同时在微观级别利用多头配置的同时注意力。本文旨在解决记忆效率高的人中所有设计级别的计算重复。我们发现,使用较大的修补茎不仅降低了内存访问成本,而且还通过利用令牌表示,从早期阶段降低了空间冗余,从而实现了态度性能。fur-hoverore,我们的初步分析表明,在早期阶段的注意力层可以用会议代替,并且后期阶段的几个注意力头在计算上是多余的。为了处理这一点,我们介绍了一个单头注意模块,该模块固有地预先预先冗余,并同时通过相结合的全局和本地信息来提高准确性。在解决方案的基础上,我们引入了Shvit,这是一种单头视觉变压器,获得了最先进的速度准确性权衡。例如,在ImagEnet-1k上,我们的SHVIT-S4在GPU,CPU和iPhone12移动设备上比MobileVitV2×1.0快3.3×,8.1×和2.4倍,而同时更准确。用于使用Mask-RCNN头对MS Coco进行的对象检测和实例分割,我们的模型分别在GPU和移动设备上表现出3.8×和2.0×下骨架潜伏期时,可以与FastVit-SA12进行比较。
动物视觉感知是一种重要的技术,用于监测动物健康,了解动物行为并协助与动物有关的研究。然而,设计一个基于深度学习的感知模型,该模型可以自由地跨各种感知任务自由地适应不同动物,这是由于大量动物的不同姿势,缺乏对稀有物种的数据以及不同任务的半偏见不一致。我们介绍了Uniap,这是一种新型的通用动物感知模型,该模型利用了很少的射击学习来实现各种视觉任务之间的跨物种感知。我们提出的模型将支持图像和标签作为查询图像的及时指导。图像和标签分别通过基于变压器的编码器和轻质标签编码来处理。然后,匹配模块设计用于汇总及时指导和查询图像之间的信息,然后是多头标签解码器,以生成各种任务的输出。通过利用不同动物和任务之间的共同视觉特征,Uniap可以将知识从良好的物种转移到具有有限标记的数据甚至看不见的物种的物种。我们通过对多种动物物种的姿势估计,分割和分类任务进行全面实验,证明了UNIAP的有效实验,展示了其具有最小标记示例的新阶级和适应新类的能力。
Vision Transformers(Vits)在计算机VI-SION任务中出色,因为它们能够捕获令牌之间的全局上下文。但是,它们的二次复杂性o(n 2 d)就令牌数字n和功能尺寸d限制了移动设备上的实际使用,因此需要更加移动友好的VIT,并减少延迟。多头线性注意事项正在成为有前途的替代品,具有线性复杂性o(ndd),其中d是每个头尺寸。仍然需要更多的计算,因为d变得较大,以达到模型的准确性。降低D可以提高移动友好性,而牺牲了过度小头弱,但在学习有价值的子空间方面,最终阻碍了模型能力。为了克服这一效率难题,我们提出了一种新型的移动意见设计,并具有通过信息流赋予的头部竞争机制,这防止了过分强调琐碎的头部上的不太重要的子空间,同时保留了必要的子空间,以确保变压器的能力。它通过支持一个小尺寸d的小型动作效率来实现移动设备上的线性时间复杂性。通过移动注意事项替换VIT的标准注意力,我们优化的VIT在一系列计算机视觉任务中实现了增强的模型容量和竞争性的表现。特定的,我们已经在iPhone 12上实现了延迟的显着降低。代码可从https://github.com/thuml/mobileattention获得。
摘要 - 随着自动驾驶和机器人导航的快速进步,对能够估计度量(绝对)深度的终身学习模型的需求不断增长。终身学习方法可能在模型培训,数据存储和收集方面可以节省大量成本。但是,RGB图像和深度图的质量是传感器的,现实世界中的深度图具有特定的特定特征,从而导致深度范围的变化。这些挑战将现有方法限制为具有较小的域差距和相对深度图估计的终身学习。为了促进终生的度量深度学习,我们确定了需要注意的三个至关重要的技术挑战:i)开发一个能够通过尺度感知的深度学习来解决深度尺度变化的模型,ii)设计有效的学习策略来处理明显的域间隙,iii III)为在实践应用中创建一个自动化的解决方案。基于上述考虑因素,在本文中,我们提出了一个轻巧的多头框架,有效地解决了深度尺度的不平衡,ii)一种不确定性的意识到的终身学习解决方案,可熟练处理重要的域域,iii)一种在线域特异性预测方法,以实现实时的预测方法。通过广泛的数值研究,我们表明该方法可以实现良好的效率,稳定性和可塑性,从而使基准测试幅度约为15%。该代码可在https://github.com/ freeformrobotics/lifelong-monodepth上找到。
摘要。预测隐藏在com-plex上下文中的对象的实例级掩码是伪装实例分割(CIS)的目标,这一任务因伪装的obs obsptss and Anckatiks之间的惊人相似之处而复杂。伪装观察的各种外观,包括不同的角度,部分可见性和模棱两可的信息,进一步加剧了这一挑战。先前的作品考虑在高不确定性区域内clasifulsiful sifialpixels,而无需考虑其文本语义,从而导致许多假阳性。我们提出了一种称为Mask2Camouflage的新颖方法,该方法同时增强了上下文特征的建模,并完善了实例级别的预测地图。mask2Camouflage利用多尺度功能集成了骨干线中提取的功能。然后,引入了全局细化的交叉注意模块(GCA),以补充前景面罩和背景掩盖,以减少假阳性。fur-hoverore,通过模拟全球换档聚类过程,我们介绍了全球偏移的多头自我注意力(GSA),该过程使对象查询不仅可以从早期功能中捕获信息,还可以从结构性概念中捕获信息,从而降低与评估的数据验证的掩体对象检测任务中的类内部问题。与15种最先进的方法相比,我们的Mask2Camouflage显着提高了伪装实例细分的性能。我们的代码可在https://github.com/underlmao/mask2camouflage上找到。
适体是单链寡核苷酸,它们结合具有高亲和力和特异性的分子靶标。但是,他们的发现和进化仍被限制在常规的SELEX方法上。在这里,我们提出了一种适体结合语言(可易于使用的)模型,该模型通过将预处理的蛋白质和核酸序列编码与跨注意结构相结合,以捕获适体 - 蛋白结合的决定因素,从而实现跨不同蛋白质靶标的结合相互作用的可靠预测。该模型采用具有多头跨意义机制的基于变压器的结构,优化了序列特定特征和位置嵌入,以学习适体及其蛋白质靶标之间的复杂结合模式,同时维持跨不同适应性库的序列长度多样性。我们跨不同基准测试的广泛评估表明,在概括实验结合曲线方面的现有方法相对于现有方法的优势。可易于观察的蛋白质和产生的适体表现出强烈/有利的概括性。在现实世界中,可易于识别的是几种经过实验验证的CD117 ssDNA Apatamers先前被传统SELEX遗漏的,并产生了一种新型的SSDNA Apatamer,该Aptna Aptamer与APP62与人类CD4共享具有可比的结合曲线。这些结果展示了可捕获捕获适体蛋白结合的分子相互作用的能力。
我们提出了一种新方法来构建投资组合,以对冲气候变化带来的经济和金融风险。我们基于数量的方法利用了有关共同基金经理如何根据其气候风险信念的特殊变化进行交易的信息。我们利用两种类型的特殊信念冲击:(i)基金顾问经历已知会改变气候变化信念的局部极端高温事件的情况,以及(ii)基金经理改变股东披露中的语言以表达对气候风险的担忧的情况。我们利用基金在这些特殊信念冲击周围观察到的投资组合变化来预测投资者将如何重新分配其资本以应对总体气候新闻冲击,这些冲击会改变许多投资者的信念和资产需求,从而改变均衡价格。我们表明,在经历负面的特殊气候信念冲击后,投资者倾向于买入的多头股票和投资者倾向于卖出的空头股票的投资组合,在总体气候新闻冲击为负的时期升值。与使用现有替代方法构建的投资组合相比,我们基于数量的投资组合具有更优的样本外对冲表现。基于数量的方法的主要优势在于,它从丰富的横截面交易反应而不是时间序列价格信息中学习,而时间序列价格信息在气候变化等新兴风险的情况下尤其有限。我们还通过构建成功的总体失业和房价风险对冲投资组合,证明了基于数量的方法的多功能性。
t 2加权磁共振成像(MRI)和扩散加权成像(DWI)是宫颈癌诊断的重要组成部分。但是,由于图像的不对准,将这些训练的这些渠道结合起来是具有挑战性的。在这里,我们提出了一个新型的多头框架,该框架使用扩张的卷积和共享残留连接来单独编码多参照MRI图像。我们采用残留的U-NET模型作为基线,并执行一系列建筑实验,以根据多参数输入通道和特征编码配置来评估肿瘤分割性能。所有实验均使用包括207例局部晚期宫颈癌患者在内的队列进行。Our proposed multi- head model using separate dilated encoding for T 2 W MRI, and combined b1000 DWI and apparent diffusion coefficient (ADC) images achieved the best median Dice coefficient similarity (DSC) score, 0.823 (confidence interval (CI), 0.595-0.797), outperforming the conventional multi-channel model, DSC 0.788 (95% CI, 0.568-0.776),尽管差异没有统计学意义(p> 0.05)。我们使用3D Grad-CAM和通道辍学研究了通道灵敏度,并强调了T 2 W和ADC通道对准确的肿瘤分割的关键重要性。但是,我们的结果表明,B1000 DWI对整体细分性能有很小的影响。我们证明,使用单独的扩张特征提取器和独立的上下文学习提高了模型减少DWI边界效应和变形的能力,从而改善了分割性能。我们的发现可能对可以扩展到其他多模式分割应用程序的可靠和可推广模型的开发具有重要意义。
摘要:大脑大规模动力学受到内在解剖基础异质性的制约。人们对时空动力学如何适应异质结构连接 (SC) 知之甚少。现代神经成像模式使得研究秒到分钟尺度的内在大脑活动成为可能。扩散磁共振成像 (dMRI) 和功能性 MRI 揭示了不同大脑区域的大规模 SC。电生理方法 (即 MEG/EEG) 提供神经活动的直接测量,并表现出复杂的神经生物学时间动态,而这是 fMRI 无法解决的。然而,大多数现有的多模态分析方法在空间或时间域中折叠大脑测量值,无法捕捉时空电路动态。在本文中,我们提出了一种新颖的时空图 Transformer 模型来整合空间和时间域中的结构和功能连接。所提出的方法使用多模态脑数据(即 fMRI、MRI、MEG 和行为表现)通过对比学习和基于多头注意的图 Transformer 来学习异构节点和图表示。所提出的对比图 Transformer 表示模型结合了受 T1 到 T2 加权(T1w/T2w)约束的异构图,以提高模型对结构功能相互作用的拟合度。使用多模态静息态脑测量的实验结果表明,所提出的方法可以突出大规模脑时空动态的局部特性,并捕捉功能连接和行为之间的依赖强度。总之,所提出的方法能够对不同的模态变体进行复杂的脑动力学解释。