类别不合时宜的对象计数旨在将图像中的所有对象计数相对于示例框或类名称,又称几个弹药和零照片计数。在本文中,我们提出了一个基于检测的几射击对象和零射击对象的广义框架。我们的框架结合了两个基础模型的出色优势,而不会损害其零拍的能力:(i)SAM将所有可能的对象分割为掩膜建议,以及(ii)剪辑来对建议进行分类以获得准确的对象计数。但是,这种策略遇到了效率过高的障碍,而无法局部和区分的小型拥挤的物体。要解决这些问题,我们的框架称为PSECO,遵循三个步骤:点,细分和计数。具体来说,我们首先提出了一个类不足的对象局部 - 为SAM提供准确但最小的提示,因此,这不仅会降低计算成本,而且还避免了缺少小对象。此外,我们采用了一种广义的对象分类,该对象分类利用剪辑图像/文本嵌入为分类器,遵循层次知识蒸馏,以获得层次掩盖建议中的歧视性层状。对FSC-147,可可和LVISMON的广泛实验结果,即PSECO在几次/零摄像对象计数/检测中都可以实现最先进的性能。
摘要:本研究提出了一种开创性的方法,可以增强Yolov8模型在对象检测中的准确性,主要集中于解决各种图像类型中检测对象的局限性,尤其是对于小物体。这项工作的拟议策略结合了上下文注意块(CAB),以有效定位和识别图像中的小物体。此外,提出的工作可提高特征提取能力,而不会增加模型复杂性,从而提高了粗到1(C2F)块的厚度。此外,已经对空间注意力(SA)进行了修改以加速检测性能。增强的Yolov8模型(即Yolov8-CAB)强烈强调通过利用CAB块来利用多尺度特征图和迭代反馈来检测较小的物体的性能,从而优化了对象检测机制。因此,创新设计有助于出色的特征提取,尤其是“弱特征”,上下文信息保存和有效的特征融合。对上下文(可可)数据集中的共同对象进行了严格的测试,以证明提出的技术的功效。这对标准Yolo模型产生了显着改善。yolov8-cab模型达到的平均平均精度为97%的检测率,与常规模型相比增加了1%。本研究强调了我们改进的Yolov8方法检测对象的功能,代表了一个突破,为实时对象检测技术的进步设定了阶段。索引术语 - 人工智能,深度学习,计算机视觉,对象检测。
摘要 - 本文提出了一个基于变压器的新型框架,旨在通过生成精确的特定于类的对象定位图作为伪标签来增强弱监督的语义细分(WSSS)。在观察到标准视觉变压器中的单级令牌区域的观察基础上可以促进类不足的定位图,我们探索了变压器模型通过学习多个类代币来捕获类别歧视对象定位的特定于类别歧视对象的特定歧视对象的潜力。我们引入了一个多级令牌变压器,该变压器结合了多个类令牌,以启用与贴片令牌的类感知相互作用。为了实现这一目标,我们设计了一种班级感知的培训策略,该策略在输出类令牌和地面实际类标签之间建立了一对一的对应关系。此外,提出了一个对比类别(CCT)模块来增强判别类令牌的学习,从而使模型能够更好地捕获每个类别的独特特征和特性。结果,可以通过利用与不同类代币相关的类键入浓度来有效地生成类歧视对象定位图。为了进一步完善这些定位图,我们提出了从斑块到斑块变压器注意的斑块级成对亲和力的利用。此外,提出的框架无缝补充了类激活映射(CAM)方法,从而在Pascal VOC 2012和MS Coco 2014数据集中显着改善了WSSS性能。这些结果强调了类令牌对WSSS的重要性。代码和模型在此处公开可用。
关键词水培,垂直,农业,挑战挑战摘要全球人口的增加和气候变化需要创新的农业解决方案,以满足有机和营养食品的需求。基于水培系统的垂直农业通过优化空间用法,最大化资源效率并确保全年生产作物,为可持续农业提供了有希望的解决方案。在这篇综述中,强调了水培法和垂直农业的协同作用,垂直农业的潜力解决了巴基斯坦农业领域的挑战,例如水的稀缺,气候变化和快速的城市化,并且已经探索了实施它们的机会和约束。本文还代表了全球案例研究和政策建议,以促进采用这种创新以确保食品安全和保障。引言到2050年,全球人口的预计兴起增加了90亿,这增加了对足够的营养和有机粮食生产的需求。传统的农业方法未能满足限制耕地的综合挑战以及气候变化的不断增长的挑战,这对巴基斯坦等易感地区的作物产量产生了不利影响(Al-Chalabi,2015年; Saeed和Ahmed,2024)。这些限制强调了对新的和可持续的农业解决方案的直接需求,这些解决方案可能会解决粮食安全问题,而不会加剧自然资源的消耗。增长培养基取决于使用的特定技术,例如航空或水培法。人造照明,灌溉垂直农业已经发展为一种创新的农业方法,使在受控条件下种植农作物,以优化资源效率并降低外部依赖性。通过整合新技术,垂直农业增强了农作物的产量,并为城市环境中的可持续农业提供了可行的解决方案,在该环境中,空间是一个重要的限制(Sulaiman,2024)。此分析研究了垂直农业的可能性,尤其是其与水培系统的整合,作为当代农业问题的革命性解决方案。在受控环境中垂直耕作的垂直农作物种植,在受控的环境中,用水量减少,并且使用任何Soilless生长的培养基被称为垂直农业(Al-Kodmany,2018年)。 例如,可可泥炭(Coco Peat),源自椰子壳的物质可与其他组件一起使用,以控制其他因素,例如气候条件,湿度,温度,光和气流,以确保最佳的生长条件。 受控环境也有助于全年作物生产。 vf涉及旨在优化受约束空间中农业产量的不同类型的方法和技术,通常在水培法,空气管学,堆叠层和水培来的城市环境中经常进行。 堆叠的农场依赖于涉及多个托盘的垂直结构,主要是芽的植物。在受控环境中垂直耕作的垂直农作物种植,在受控的环境中,用水量减少,并且使用任何Soilless生长的培养基被称为垂直农业(Al-Kodmany,2018年)。例如,可可泥炭(Coco Peat),源自椰子壳的物质可与其他组件一起使用,以控制其他因素,例如气候条件,湿度,温度,光和气流,以确保最佳的生长条件。受控环境也有助于全年作物生产。vf涉及旨在优化受约束空间中农业产量的不同类型的方法和技术,通常在水培法,空气管学,堆叠层和水培来的城市环境中经常进行。堆叠的农场依赖于涉及多个托盘的垂直结构,主要是芽的植物。
文本对图像(T2I)合成是一项艰巨的任务,该任务是对文本和图像域及其关系进行建模。最近作品实现的图像质量的实质性改进为Nuberon应用程序铺平了道路,例如语言辅助图像编辑,计算机辅助设计,基于文本的图像检索和培训数据增强。在这项工作中,我们提出了一个简单的问题:与逼真的图像一起,我们是否可以以一种不受影响的方式获得任何有用的副产品(例如前景 /背景或多类分割掩码,检测标签,检测标签),这也将使其他计算机视觉任务任务和应用受益?试图回答这个问题,我们探索了从给定文本中的逼真的图像及其相应的前景 /背景分割掩码。为了实现这一目标,我们与GAN一起实验了共进行分割的概念。具体而言,提出了一种名为“共裂”启发的GAN(COS-GAN)的新型GAN结构,该结构同时从不同的噪声矢量中同时生成两个或多个图像,并利用图像特征之间的空间关注机制来生成逼真的分段掩码,以生成生成的Im-Im-Im-Im-Im-Im-Im-Im-Im-Im-Im-Agens。这种架构的优点是两倍:1)生成的分割掩码可用于专注于前景和背景,以改善生成的图像的质量,2)分段蒙版可以用作其他任务的训练目标,例如访问本地化和分割。在CUB,Oxford-102和可可数据集上进行的广泛实验表明,Cos-Gan能够改善视觉质量,并为发电图像提供可靠的前景 /背景掩码。
尽管Vision Transformer(VIT)在计算机视觉方面取得了显着的成功,但由于缺乏内部绘制互动和特征量表的多样性有限,它在密集的预测任务中表现不佳。大多数现有的研究致力于设计视觉特定的变压器来解决上述问题,从而涉及额外的培训前成本。因此,我们提出了一种普通的,无培训的且具有特征增强的vit背骨,并具有指定性的特征性动作,称为Vit-Comer,可促进CNN和Transformer之间的双向相互作用。与现状相比,VIT-COMER具有以下优点:(1)我们将空间金字塔多触发性场卷积特征注入VIT体系结构,从而有效地减轻了VIT中局部信息相互作用和单场表述的有限问题。(2)我们提出了一个简单有效的CNN转换器双向交互模块,该模块在跨层次特征上执行多尺度融合,这对Han-dling密集的预测任务有益。(3)我们评估了在各种密集的预测任务,不同框架和多个高级预训练中VIT-COMER的能力。值得注意的是,我们的VIT-COMER-L在没有额外训练数据的情况下可可Val2017上的AP达到64.3%,而ADE20K Val上的MIOU为62.1%,这两种方法都与最先进的方法相当。我们希望VIT-COMER可以作为密集预测任务的新骨干,以促进未来的研究。该代码将在https://github.com/traffic-x/vit-comer上发布。
抽象异常检测(AD)通常集中于检测用于工业质量检查和医疗病变检查的异常区域。然而,由于特定的方案目标,AD的数据量表相对较小,与经典视觉任务(例如对象检测和语义分割)相比,评估指标仍然不足。为了填补这些空白,这项工作首先通过将可可扩展到广告字段来构建一个大规模和通用可可AD数据集。这可以在此挑战性的基准中对不同方法进行公平的评估和可持续发展。此外,当前的指标(例如AU-ROC)几乎在简单的数据集上达到饱和,该数据集对不同方法进行了全面评估。受到分割领域的指标的启发,我们提出了几个更实用的阈值依赖性AD特异性指标,即M f 1。2。8,MACC。 2。 8,miou。 2。 8和miou-max。 是由GAN反演高质量重建能力的促进的,我们提出了一个简单但功能更强大的Invad框架,以实现高质量的效果重建。 我们的方法改善了对流行的MVTEC AD,VISA和我们新提出的可可AD数据集的基于重建的方法的有效方法,在多类无监督的设置下,只有一个单个检测模型经过训练以检测不同类别的异常。 广泛的消融实验证明了我们入侵的每个组成部分的有效性。 完整的代码和模型可在https://github.com/zhangzjn/ader上找到。8,MACC。2。8,miou。2。8和miou-max。是由GAN反演高质量重建能力的促进的,我们提出了一个简单但功能更强大的Invad框架,以实现高质量的效果重建。我们的方法改善了对流行的MVTEC AD,VISA和我们新提出的可可AD数据集的基于重建的方法的有效方法,在多类无监督的设置下,只有一个单个检测模型经过训练以检测不同类别的异常。广泛的消融实验证明了我们入侵的每个组成部分的有效性。完整的代码和模型可在https://github.com/zhangzjn/ader上找到。
摘要。今天的深度学习方法着重于如何设计目标函数以使预测尽可能接近目标。同时,必须设计适当的神经网络体系结构。现有方法忽略一个事实,即当输入数据逐层特征转换时,会丢失大量信息。本文深入研究了信息瓶颈和可逆功能的重要问题。我们提出了可编程梯度信息(PGI)的概念,以应对深网所需的各种更改以实现多个目标。PGI可以为目标任务提供完整的输入信息来计算目标函数,以便可以获取可靠的梯度信息以更新网络参数。此外,设计了轻巧的网络体系结构 - 一般有效的层聚合网络(GELAN)。Gelan确认PGI在轻量级模型上取得了卓越的成绩。我们在MS可可对象检测数据集上验证了所提出的Gelan和PGI。结果表明,与基于深度卷积开发的状态方法相比,Gelan仅使用常规召集操作员来实现更好的参数利用。PGI可用于从轻量级到大型的各种型号。它可用于获取完整的信息,因此,与使用大型数据集进行预训练的最新模型可以实现训练范围的模型,比较结果如图1。源代码在https://github.com/wongkinyiu/yolov9上发布。
这项研究调查了通过将加权盒融合(WBF)整合在KERAS CV框架中,从而提高了Yolov8对象检测性能的潜力。Yolov8由于其速度,准确性和现实世界中的良好声誉而被选择。KERAS CV:简化WBF实施这项工作的关键方面涉及利用KERAS CV库。这个用户友好的框架有助于开发自定义的WBF层,无缝集成到Yolov8架构中。该创新层通过基于置信度得分策略性地组合边界框,在完善对象检测结果中起着至关重要的作用。Python:开发基础Python是该项目的主要编程语言。其广泛的计算机视觉库生态系统为数据操作和模型开发提供了重要的工具。开发和评估过程是在配备GPU的工作站上进行的。此设置确保了有效的处理和实验。但是,该方法可以适应利用基于云的资源来用于大规模培训和部署方案。评估WBF严格评估WBF整合有效性的影响,采用了全面的评估策略。这种策略涉及利用可可公开可用数据集的组合,并可能由针对特定对象的感兴趣类别定制的自定义数据集补充。标准对象检测指标(例如平均平均精度(MAP))用于量化模型的性能。评估的关键方面涉及将WBF增强的Yolov8模型与没有WBF的基线Yolov8模型进行比较。
rt-detr是第一个实时端到端变压器对象检测器。它的效率来自框架工作设计和匈牙利匹配。然而,匈牙利匹配提供了密切的匹配,可提供大量的较少范围,从而导致模型训练不足和难以实现最佳结果。为了解决这些问题,我们提出了一种基于RT-Det的层次密集的积极监督方法,称为RT-DETRV3。首先,我们介绍了一个基于CNN的辅助分支,该分支提供了密集的监督,该分支与原始解码器合作以增强编码器的功能表示形式。其次,为了解决解码器培训不足,我们提出了一种新颖的学习策略,涉及自我注意力扰动。该策略使跨多个查询组的阳性样品分配了标签分配,从而丰富了积极的范围。此外,我们引入了一个共享的权重编码器分支,以进行密集的积极监督,以确保与每个地面真相相匹配的更多高质量查询。值得注意的是,所有上述模块都仅训练。我们进行了广泛的实验,以证明我们在可可VAL2017上的方法的有效性。rt-detrv3明显胜过现有的实时检测器,包括RT-DETR系列和Yolo系列。例如,RT-DETRV3-R18达到48.1%AP(+1.6%/+1.4%),同时维持相同的潜伏期。此外,RT-DETRV3-R101可以达到令人印象深刻的54.6%AP优于Yolov10-X。该代码将在https://github.com/ clxia12/rt-detrv3上发布。