摘要 - 精确农业专注于自动杂草检测,以改善输入的使用并最大程度地减少除草剂的施用。提出的纸张概述了一个视觉变压器(VIT)模型,用于杂草检测,该模型应对农作物和杂草的相似之处,尤其是在复杂的,多样化的环境中,这是由于农作物和杂草的相似性而引起的。该模型是通过使用高分辨率无UAV图像在有机胡萝卜场上拍摄的具有农作物,杂草和背景的高分辨率的无UAV图像的图像进行训练的。由于包括自我注意力的VIT机制的性质,这使其能够捕获长期的空间依赖性,因此这种方法可以很好地将作物行与排间杂草间簇区分开。解决了类不平衡的问题并改善了斑块的通用性,使用了数据预处理技术(例如贴片提取和增强)。在分类中的精度为89.4%,超过了基本模型(例如u-Net和FCN)在实际应用条件下的效率,已证实了所提出的方法的有效性。这种提出的基于VIT的方法是作物管理的明显改善。并为选择性杂草控制提供了前景,以支持更可持续的农业。该模型也可以集成到基于AI的拖拉机中,以实现现场的实时杂草管理。
D P Kothari 目前是 VIT 大学韦洛尔分校的副校长。他于 1967 年获得电气学学士学位,1969 年获得电力系统硕士学位,1975 年获得拉贾斯坦邦比拉理工学院 (BITS) 皮拉尼分校的博士学位。从 1969 年到 1977 年,他参与了 BITS 皮拉尼分校多门课程的教学和开发。在担任 VIT 大学副校长之前,Kothari 博士曾担任印度理工学院德里分校主管主任、副主任(行政)以及能源研究中心主任;并担任纳格浦尔 Visvesvaraya 地区工程学院校长。1982-83 年间,他曾任澳大利亚墨尔本皇家墨尔本理工学院客座教授,
摘要。作为视觉变压器(VIT)的核心,自我注意力在建模长期空间相互作用方面具有很高的多功能性,因为每个查询都聚集在所有空间位置。尽管VIT在视觉任务中实现了有希望的表现,但自我注意力的复杂性与令牌长度相关。将VIT模型适应需要高输入分辨率的下游任务时,这会导致挑战性问题。前瞻性艺术试图通过引入稀疏的注意力(例如空间减少关注和窗户注意力)来解决这个问题。这些方法的一个常见点是,在计算注意力重量的情况下,所有图像/窗口令牌都连接在一起。在本文中,我们发现注意力重量与造成的计算冗余之间存在很高的相似性。为了解决这个问题,本文引入了新的关注,称为部分注意力,该问题通过减少注意图中的冗余信息来更有效地学习空间相互作用。我们注意力中的每个查询只与一小部分相关令牌相互作用。基于部分关注,我们提出了一个高效而通用的视觉变压器,名为Partialformer,该变压器在视觉任务之间的准确性和计算成本之间达到了良好的权衡。例如,在Imagenet-1K上,PartialFormer-B3超过1.7%的TOP-1准确性,同时节省25%的GFLOPS,而焦点T则超过0.8%,同时节省了30%的GFLOPS。
赞助商医疗保健科学与工程学院(Shine)VIT的医疗保健科学与工程学院(Shine)是一项开创性的计划,于2024年发起,旨在塑造未来的准备就绪的“ MedTech”专业人员。这所学校的愿景是通过结合工程,医疗,法律和商业领域的跨学科专业知识来弹射全球医疗保健市场的愿景。它提供了首个学士学位计划(B.医疗保健科学技术技术),由学术界,医疗保健和行业专家设计的课程。Shine专注于诊断,机器人技术,基因治疗和医疗设备等新兴领域。与《 2047年健康愿景》和联合国的可持续发展目标保持一致,使学生能够创建创新的解决方案,以推动医疗保健和提升社会。
• 根据以下 IDMTL(反时限最小时滞)跳闸曲线提供过流保护:定时限(DT)、标准反时限(SIT)、非常反时限(VIT)、极端反时限
人类行动识别(HAR)涵盖了监视各个领域的人类活动的任务,包括但不限于医学,教育,娱乐,视觉监视,视频检索以及对异常活动的识别。在过去十年中,HAR领域通过利用卷积神经网络(CNN)和经常性的神经网络(RNN)来有效提取和理解复杂的信息,从而增强了HAR系统的整体性能,从而取得了实质性的进展。最近,计算机视觉的领域见证了视觉变压器(VIT)的启示作为有效的解决方案。超出图像分析的范围,已验证了变压器体系结构的功效,从而将其适用性扩展到了不同的视频相关任务上。值得注意的是,在这一景观中,研究界表现出对HAR的浓厚兴趣,承认其多种效用并在各个领域中广泛采用。本文旨在提出一项涵盖CNN的涵盖调查,鉴于它们在HAR领域的重要性,RNNS对VIT的发展。通过对现有文献进行彻底研究并探索新兴趋势,本研究对该领域的累积知识进行了批判性分析和综合。此外,它还研究了正在进行的开发混合方法的努力。遵循此方向,本文提出了一种新型的混合模型,该模型旨在整合CNN和VIT的固有优势。
人重新识别(REID)旨在在非重叠的摄像机图像中检索相关的人,并且在公共安全领域具有广泛的应用。近年来,随着视觉变压器(VIT)和自我监督的学习技术的发展,基于自我监督的预训练的人的REID的表现得到了极大的改善。人Reid需要提取人体的高度歧视性局部细粒度特征,而传统的VIT则擅长提取与上下文相关的全球特征,从而难以专注于当地的人体特征。为此,本文介绍了最近出现的掩盖图像建模(MIM)自制的学习方法,并通过将掩盖的图像建模和歧视性的损坏性学习和进行训练的人进行训练的任务来有效地提取高质量的全球和本地特征。此人的特征提取方法基于VIT,具有掩盖图像建模(PersonVit)具有无关,可扩展性和强大的概括能力的良好特征,克服了受监督人员REID中难以注释的问题,并在包括MSMT17,Market1501,dukem-comp的公共可用基础数据集中实现了最先进的结果。PersonVit方法的代码和预培训模型将在https://github.com/hustvl/personvit上发布,以促进REID领域的进一步研究。
最近,Visual Transformer(VIT)及其以下作品放弃了卷积,并利用了自我发项操作,比CNN获得了可比甚至更高的精度。最近,MLP-Mixer放弃了卷积和自我发项操作,提出了仅包含MLP层的体系结构。为了实现交叉补丁通信,除了通道混合MLP外,它还设计了其他令牌MLP。在诸如JFT-300M之类的极限数据集上进行训练时,它会取得令人鼓舞的结果。,但是当在ImagEnet-1k等中等规模的数据集上训练时,它的表现不如其CNN和VIT对应。MLP混合使用的性能下降激励我们重新考虑令牌混合MLP。我们发现,MLP混合中的令牌混合操作是深度卷积的变体,具有全局接收场和空间特异性配置。在本文中,我们提出了一种新颖的纯MLP体系结构,即空间移位MLP(S 2 -MLP)。不同于MLP混合器,我们的S 2 -MLP仅包含通道混合MLP。我们设计了一个空间换档操作,以实现通过补丁之间的通信。它具有局部接收场,是空间的 - 不可知论。同时,它无参数且有效地计算。在Imagenet-1K数据集训练时,提出的S 2 -MLP比MLP混合剂具有更高的识别精度。同时,S 2 -MLP在ImageNet-1k数据集上具有出色的性能,具有更简单的架构,较少的失败和参数。