摘要:通过图像分类和识别对象并制作边界框是对象识别和检测的基本原理。对象识别,是最关键的问题,这是它对研究引起强烈关注的原因。在过去几年中,随着计算机视觉中对象检测技术的巨大增长,该主题发生了重大变化。在1990年代,人们仍在使用创造性的思想和持久的设计来弄清楚如何在早期计算机视觉中识别对象。如果您查看我们今天如何将对象识别为可以通过深度学习实现的变化,则可以同时学习高级和低级功能。本文通过深度学习讨论了对象识别领域的混合方法。这项工作的主要贡献是通过使用EfficityNet CNN深度学习模型与一些突出的主链体系结构呈现混合分类器方法,并与Yolo探测器结合使用Yolo检测器,用于对象识别e-Yolo。在某些指标上,该模型测试与某些现有的COCO Dataset上的现有模型用于常见的Benchmark。最后讨论了现有模型的性能和准确性与对这些指标的拟议模型的比较。因此,提出的模型的准确性优于现有模型。
尽管在野外有大量未标记的图像,但在原始图像数据上进行了可扩展的视觉预训练仍然是一个挑战。像素重建之类的通用配方努力为有效捕获详细的语义而努力,而在增强图像视图之间保持一致性的方法优化依赖于未经保育数据(如Web Crawls或视频框架)中不存在的归纳偏见。我们如何从广泛的未标记的IMEAL数据集中更有效地学习?我们研究注释引导程序,这种方法学会了将图像关联到示意注释,并使用未标记的数据来引导模型的理解,通过对图像附近农作物的语义进行预测。关键的优势在于它具有规格(哪些语义概念很有趣?)从预测中(这些概念发生在自然图像数据中?)。我们表明,注释引导使我们能够通过策划的未标记数据集或弱监督的数据集指导预训练,同时通过自举损失从所有未经切割的图像数据中学习。我们的实验证明了对野外未标记图像的预先培训的改进,包括视频数据,例如epickitchens,Coco等场景数据以及CC12M(例如CC12M)。
认知和计算神经科学实验室(CoCo Lab),蒙特利尔大学,2900,boul。 Edouard-Montpetit,蒙特利尔,H3T 1J4,魁北克,加拿大 b 奥斯纳布吕克大学认知科学研究所,Neuer Graben 29/Schloss,奥斯纳布吕克,49074,下萨克森州,德国 c 安蒂奥基亚大学医学院神经心理学和行为学组(GRUNECO),53-108,麦德林,阿兰胡埃斯,麦德林,050010,哥伦比亚 d 阿尔伯塔大学计算机科学系,116 St & 85 Ave,埃德蒙顿,T6G 2R3,AB,加拿大 e 蒂莫内神经科学研究所(INT),法国国家科学研究院,艾克斯马赛大学,马赛,13005,法国 f 麦吉尔大学神经科学综合项目,1033 Pine Ave,蒙特利尔,H3A 0G4,加拿大 g Mila(魁北克机器学习学院),6666 Rue Saint-Urbain,蒙特利尔,H2S 3H1,QC,加拿大 h UNIQUE 中心(魁北克神经人工智能研究中心),3744 rue Jean-Brillant,蒙特利尔,H3T 1P1,QC,加拿大
摘要 - 视觉变压器(VIT)在各种计算机视觉任务中都表现出最先进的性能,但是其高计算需求使其对于资源有限的边缘设备不切实际。本文介绍了Microvit,这是一种轻巧的视觉变压器体系结构,通过显着降低计算复杂性,同时保持高精度,从而优化了边缘设备。Microvit的核心是有效的单头注意(ESHA)机制,该机制利用组卷积减少特征冗余,并且仅处理一小部分通道,从而降低了自我注意力的负担。Microvit是使用多阶段元式构建结构设计的,堆叠了多个微型编码器以提高效率和性能。Imagenet-1k和可可数据集上的全面实验表明,微型电视可以达到竞争精度,同时显着改善了3。6×更快的推理速度和降低效率高40%的效率的速度比移动设备系列高40%,这使其适合在资源受限环境(例如移动设备和边缘设备)中部署。索引术语 - 分类,自我注意力,视觉跨前,边缘设备。
摘要。我们为开放世界实例(OWIS)提出了一种方法,该任务旨在通过从训练过程中的一组有限的带注释的对象类中概括图像中的任意未知的观察。我们的细分对象系统(SOS)明确地解决了最先进系统的概括能力和低精度,这些系统通常会生成背景检测。为此,我们基于基础模型SAM [27]生成了高质量的伪注释。我们彻底研究了各种对象先验,以引起SAM的提示,并明确将基础模型集中在观察上。最强的物体先验是通过自我监督视觉变压器的自我发项图获得的,我们用来促使SAM。最后,SAM的后处理片段用作伪注释来训练标准实例分割系统。我们的方法在可可,LVI和ADE20K数据集上显示出强大的概括能力,并且与最先进的方法相比,精度提高了高达81.6%。源代码可用:https://github.com/chwilms/sos
我们研究了深层生成模型对即将到来的计算机视觉模型中潜在社会偏见的影响。互联网目睹了a-a-a-a-aford图像的涌入,因此对可能伴随的固有偏见产生了担忧,这可能导致有害内容的分离。本文探讨了如果将生成的图像用作未来模型的训练数据,是否会发生有害的反馈回路,导致偏差。我们通过逐步将可可和CC3M数据集中的原始图像替换为通过稳定的差异生成的图像来进行模拟。修改后的数据集用于训练OpenCLIP和图像字幕模型,我们根据质量和偏差进行评估。与期望相反,我们的发现表明,在训练期间引入产生的图像并不能统一扩大偏见。相反,观察到跨特定任务的偏置缓解实例。我们进一步阐述了可能影响这些现象的因素,例如图像生成中的伪像(例如,模糊的面孔)或原始数据集中的预先偏见。
其他首字母缩略词和职位 AASF 陆军航空支援设施 AQ-C NGB 货物与服务承包办公室 AQ-R NGB 建筑与 A&E 承包办公室 ARNG 陆军国民警卫队 ARNG G1 ARNG 人事行动 ARNG G2 ARNG 情报行动 ARNG G3 ARNG 行动与培训 ARNG G4 ARNG 后勤 ARNG G5 ARNG 计划、方案与战略 ARNG G6 ARNG 通信与 IT ARNG G8 ARNG 财政行动 XXARNG 州陆军国民警卫队(IE KSARNG) ANG 空军国民警卫队 ANG A1 空军国民警卫队人事 ANG A2 空军国民警卫队情报 ANG A4 空军国民警卫队后勤 ANG FM 空军国民警卫队财政管理 XXANG 州空军国民警卫队(IE KSARNG) ARW 空中加油联队 AVN 航空 ASVAB 武装部队职业能力测验连 AW 航空联队 BCE 基地土木工程师 BCO 基地承包官 CES 土木工程中队 CIF 中央问题设施 CST 民事支援小组 CSJFTC 民事支援联合特遣部队指挥官 CoCO 合同办公室主任 COR 合同官代表 CoS 陆军参谋长(职位在 NGB ARNG 和每个州) CFMO 设施维护官 CRTC 战斗准备训练中心
其他首字母缩略词和职位 AASF 陆军航空支援设施 AQ-C NGB 货物与服务承包办公室 AQ-R NGB 建筑与 A&E 承包办公室 ARNG 陆军国民警卫队 ARNG G1 ARNG 人事行动 ARNG G2 ARNG 情报行动 ARNG G3 ARNG 行动与培训 ARNG G4 ARNG 后勤 ARNG G5 ARNG 计划、方案与战略 ARNG G6 ARNG 通信与 IT ARNG G8 ARNG 财政行动 XXARNG 州陆军国民警卫队(IE KSARNG) ANG 空军国民警卫队 ANG A1 空军国民警卫队人事 ANG A2 空军国民警卫队情报 ANG A4 空军国民警卫队后勤 ANG FM 空军国民警卫队财政管理 XXANG 州空军国民警卫队(IE KSARNG) ARW 空中加油联队 AVN 航空 ASVAB 武装部队职业能力测验连 AW 航空联队 BCE 基地土木工程师 BCO 基地承包官 CES 土木工程中队 CIF 中央问题设施 CST 民事支持小组 CSJFTC 民事支持联合特遣部队指挥官 CoCO 合同办公室主任 COR 合同官员代表 CoS 陆军参谋长(职位在 NGB ARNG 和每个州)CFMO 设施维护官
摘要。我们提出了一种新颖的提示范式 DetToolChain,以释放多模态大型语言模型 (MLLM)(例如 GPT-4V 和 Gemini)的零样本物体检测能力。我们的方法包括一个受高精度检测先验启发的检测提示工具包和一个用于实现这些提示的新思路链。具体来说,工具包中的提示旨在引导 MLLM 关注区域信息(例如放大)、根据测量标准读取坐标(例如叠加尺子和圆规)以及从上下文信息中进行推断(例如叠加场景图)。基于这些工具,新的检测思路链可以自动将任务分解为简单的子任务,诊断预测并规划渐进式框细化。我们的框架的有效性在一系列检测任务中得到了证明,尤其是在困难情况下。与现有的最先进方法相比,使用我们的 DetToolChain 的 GPT-4V 可将最先进对象检测器的 AP 50 在 MS COCO Novel 类集(用于开放词汇检测)上提高 21.5%,在 RefCOCO val 集(用于零样本指称表达理解)上提高 24.23%,在 D-cube 描述对象检测 FULL 设置上提高 14.5% AP。代码将在接受后发布。
最近,有效的视觉变压器表现出出色的性能,并且在资源受限的范围内延迟较低。通常,他们在宏观水平上使用4×4贴片嵌入式和4阶段结构,同时在微观级别利用多头配置的同时注意力。本文旨在解决记忆效率高的人中所有设计级别的计算重复。我们发现,使用较大的修补茎不仅降低了内存访问成本,而且还通过利用令牌表示,从早期阶段降低了空间冗余,从而实现了态度性能。fur-hoverore,我们的初步分析表明,在早期阶段的注意力层可以用会议代替,并且后期阶段的几个注意力头在计算上是多余的。为了处理这一点,我们介绍了一个单头注意模块,该模块固有地预先预先冗余,并同时通过相结合的全局和本地信息来提高准确性。在解决方案的基础上,我们引入了Shvit,这是一种单头视觉变压器,获得了最先进的速度准确性权衡。例如,在ImagEnet-1k上,我们的SHVIT-S4在GPU,CPU和iPhone12移动设备上比MobileVitV2×1.0快3.3×,8.1×和2.4倍,而同时更准确。用于使用Mask-RCNN头对MS Coco进行的对象检测和实例分割,我们的模型分别在GPU和移动设备上表现出3.8×和2.0×下骨架潜伏期时,可以与FastVit-SA12进行比较。