LIDAR UPSMPLING对于机器人和自动驾驶汽车的启示系统来说是一项艰巨的任务,这是由于大型场景的稀疏结构稀疏和不规则的结构。最近的作品建议通过将LIDAR数据从3D欧几里得空间传播到2D图像空间中的一个超级分辨率问题来解决此问题。尽管他们的方法可以生成具有细粒细节的高分辨率范围图像,但由此产生的3D点云是10个模糊细节并预测无效的点。在此pa-per中,我们提出了郁金香,这是一种从低分辨率激光雷达输入中重建高分辨率激光圈云的新方法。我们还遵循一种基于图像的方法,但特定地修改了基于Swin-Transformer网络的贴片和窗口几何形状,以更好地拟合范围图像的特性。我们在三个公共现实世界和模拟数据集上进行了几项实验。郁金香在所有相关指标中都优于最先进的方法,并且比以前的工作生成了强大,更现实的点云。该代码可在https://github.com/ethz-asl/tulip.git上找到。
基于变压器的模型已在包括图像超级分辨率(SR)在内的低级视觉任务中取得了显着的结果。但是,在获得全球信息时,基于不重叠的窗口中依赖自我注意的早期aperach遇到了挑战。为了激活全球更多输入像素,已经提出了混合注意模型。此外,通过仅将像素的RGB损失(例如L 1)降至最低而无法捕获基本的高频降低,训练不足。本文提出了两种贡献:i)我们引入了卷积非本地稀疏注意(NLSA)块,以扩展混合变压器体系结构,以增强其接受场。ii)我们采用小波损失来训练变压器模型,以提高定量和主观性能。虽然先前已经探索过小波损耗,但在基于训练变压器的SR模型中显示了它们的力量是新颖的。我们的实验结果表明,所提出的模型在各种基准数据集中提供了状态的PSNR结果以及出色的视觉性能。
与基于卷积神经网络(CNN)相比,我们研究了基于变压器的行人检测模型较低性能的原因。CNN模型会产生密集的行人建议,单独完善每个建议,然后对其进行非最大抑制(NMS)的跟进,以产生稀疏的预测。在争论中,变压器模型每个地面真相(GT)行人盒选择一个建议,然后从中选择了正面的正态。所有其他建议,其中许多与选定的建议高度相似,都通过了负梯度。尽管这导致了稀疏的预测,从而消除了NM的需求,但在许多类似的建议中,任意选择,有效的训练和较低的行人检测准确性。为了减轻问题,我们建议基于Min-Cost-Flow的配方,而不是常用的Kuhn-Munkres匹配算法,并纳入了诸如每个地面真相盒的约束,并且与一个建议的提案相匹配,并且许多同样好的建议可以与单个地面真相盒相匹配。我们提出了基于匹配算法的第一个基于变压器的行人检测模型。广泛的实验表明,我们的方法达到了3个失误率(较低)3。7 /17。4 /21。8/8。3/2。0在Eurocity / tju-traffic / tju-校园 /城市专家 /加州理工学院数据集中,而4个。7/18。7/24。8/8。5/3。 1通过当前的sota。 代码可从https://ajayshastry08.github.io/flow_ matcher 获得。5/3。1通过当前的sota。代码可从https://ajayshastry08.github.io/flow_ matcher
摘要:本文解决了香草视觉变压器中与多头自我注意(MHSA)相关的高计算/空间复杂性。为此,我们提出了层次MHSA(H-MHSA),这是一种新颖的方法,以层次的方式计算自我注意力。具体来说,我们首先将输入图像分为通常完成的补丁,每个补丁都被视为令牌。然后,提议的H-MHSA学习本地贴片中的令牌关系,作为局部关系建模。然后,将小斑块合并为较大的贴片,H-MHSA对少量合并令牌的全局依赖性建模。终于,将本地和全球专注的特征汇总为具有强大表示能力的功能。由于我们仅在每个步骤中计算有限数量的令牌的注意力,因此计算负载大大减少。因此,H-MHSA可以在不牺牲细粒度信息的情况下有效地模拟令牌之间的环境关系。与H-MHSA模块合并,我们建立了一个基于层次的变压器网络的家族,即HAT-NET。为了证明帽子网络在场景中的优越性,我们就基本视觉任务进行了广泛的实验,包括图像分类,语义分割,对象titection和实例分段。因此,HAT-NET为视觉变压器提供了新的视角。代码和预估计的模型可在https://github.com/yun-liu/hat-net上找到。
摘要。近年来,自然语言处理领域(NLP)发生了一场革命,文字一代在这一转变中起着关键作用。这种转变不仅限于技术领域,而且还无缝渗透了创意领域,一个很好的例子是歌曲歌词的一代。真正有效的生成模型,例如生成训练的预训练变压器(GPT)-2,需要进行微调作为关键步骤。本文利用了广泛参考的Kaggle数据集的鲁棒性,标题为“歌曲歌词”,仔细探讨了调节三个关键参数的影响:学习率,批处理大小和序列长度。数据集提出了一个引人入胜的叙述,该叙述将学习率视为最有影响力的决定因素,直接影响了产生的歌词的质量和连贯性。在增加批处理大小和扩展序列长度有望增强模型性能的同时,很明显,还有一个饱和点,超出该点的效果受到限制。通过此探索,本文旨在揭开模型校准的复杂世界,并强调战略参数选择在追求抒情卓越方面的重要性。
致力于通过印度的可再生能源发电资产组合向商业和工业消费者提供绿色能源。其充满活力的团队由 275 名全职员工组成,致力于通过建设高效的公用事业规模风能太阳能混合能源项目并在未来增加能源存储容量,为其大约 200 名客户提供高商业和绿色价值。Continuum 附属公司发行的美元计价高级绿色债券在印度国际交易所和新加坡证券交易所上市。如需更多信息,请
尽管Vision Transformer(VIT)在计算机视觉方面取得了显着的成功,但由于缺乏内部绘制互动和特征量表的多样性有限,它在密集的预测任务中表现不佳。大多数现有的研究致力于设计视觉特定的变压器来解决上述问题,从而涉及额外的培训前成本。因此,我们提出了一种普通的,无培训的且具有特征增强的vit背骨,并具有指定性的特征性动作,称为Vit-Comer,可促进CNN和Transformer之间的双向相互作用。与现状相比,VIT-COMER具有以下优点:(1)我们将空间金字塔多触发性场卷积特征注入VIT体系结构,从而有效地减轻了VIT中局部信息相互作用和单场表述的有限问题。(2)我们提出了一个简单有效的CNN转换器双向交互模块,该模块在跨层次特征上执行多尺度融合,这对Han-dling密集的预测任务有益。(3)我们评估了在各种密集的预测任务,不同框架和多个高级预训练中VIT-COMER的能力。值得注意的是,我们的VIT-COMER-L在没有额外训练数据的情况下可可Val2017上的AP达到64.3%,而ADE20K Val上的MIOU为62.1%,这两种方法都与最先进的方法相当。我们希望VIT-COMER可以作为密集预测任务的新骨干,以促进未来的研究。该代码将在https://github.com/traffic-x/vit-comer上发布。
人工智能(AI)结合了计算机科学和强大的数据集,以解决问题。AI于1985年首次由McKinion和Lemmon在农业中使用,以开发一种名为Gossym的棉花作物仿真模型,该模型使用AI来利用大量的农业数据来优化棉花生产,并应用先进的分析技术来找到模式,并发现新颖的见解。今天,AI在农业中起着至关重要的作用,以确定最佳的灌溉时间表,养分施用时间,监测植物健康,检测疾病,识别和清除杂草,并建议有效的害虫控制方法和合适的农艺产品。在作物管理中,这些解决方案可以进一步分为农作物疾病诊断,产量预测,作物建议,价格预测和市场设计等领域。但是,由于这些技术的复杂性和缺乏专门针对农业领域的用户友好平台的复杂性,印度农业景观中的AI和机器学习(ML)仍然有限。
森林在地面碳循环中至关重要,并且对它们对持续气候变化的反应的了解对于确定未来的碳浮动和气候轨迹至关重要。在具有对比季节的区域,树木形成可以分配给日历年的离散年环,从而可以提取有关树木对环境的反应的宝贵信息。木材的解剖结构提供了有关树木对气候的反应和适应的高度分辨信息。定量木材解剖结构有助于通过使用木材微剖面的高分辨率图像在细胞水平上测量木材来检索这些信息。然而,尽管在识别细胞结构方面已经取得了很大的进步,但获得有意义的细胞信息仍然受图像上正确的年度树环界定的阻碍。这是一项耗时的任务,需要经验丰富的操作员手动界定环边界。基于像素值的自动分割的经典方法正在用能够区分结构的新方法代替,即使分界需要高水平的专业知识。尽管已使用神经网络进行木环的分割,但木制的木材图像,但阔叶物种染色的微观切片中细胞模式的复杂性需要自适应模型才能准确地完成此任务。我们在山毛榉核心染色的横截面微隔板图像上使用神经网络提出了自动树环边界划定。基于卷积神经网络的应用我们训练了一个UNETR,一个UNET的联合神经网络和视觉变压器的注意机制,以自动分段年度环边界。考虑到具有手动分割的差异以及数量木材解剖学分析目标的差异以及差异的后果。在大多数情况下(91.8%),自动分割匹配或改进了手动细分,即使将手动细分视为更好的情况,两种类别之间的船只分配率也相似。