当前使用广泛使用的对象检测数据集,例如Coco [23],Objects365 [32]和OpenImages V4 [19] [19],提供大量图像和类别,仍然具有有限的词汇。这些数据集的有限词汇限制了班级检测器的训练潜力,因为理想的检测器应该能够识别培训集外的新类别。即使是LVIS [16](例如LVIS [16])的大型词汇检测数据集,就类别的数量和多样性而言,也无法完全代表现实世界的复杂性。V3DET为研究社区提供了一个大型的对象检测数据集,该数据集可以加速对更通用的视觉检测系统的探索。基线级联结构非常适合处理V3DET数据集的分层类别结构。使用常见的检测改进策略,我们将监督轨道I视为具有复杂标签的传统对象检测任务。通过改善特征金字塔网(FPN)结构,我们希望网络可以有效地学习更深入的语义信息。此外,我们通过调整损失函数来构成标签。
摘要 在计算机视觉和机器人领域,具身代理有望探索其环境并执行人类的指令。 这就需要能够根据第一人称观察充分理解 3D 场景,并将其语境化为语言进行交互。 然而,传统研究更多地侧重于从全局视角进行场景级输入和输出设置。 为了解决这一差距,我们引入了 EmbodiedScan,这是一个多模态、以自我为中心的 3D 感知数据集和整体 3D 场景理解的基准。 它包含超过 5k 个扫描,封装了 1M 个以自我为中心的 RGB-D 视图、1M 个语言提示、160k 个 3D 导向框,涵盖 760 多个类别,其中一些与 LVIS 部分一致,以及具有 80 个常见类别的密集语义占用率。 基于这个数据库,我们引入了一个名为 Embodied Perceptron 的基线框架。它能够处理任意数量的多模态输入,并表现出卓越的 3D 感知能力,无论是在我们建立的两个系列基准测试(即基本 3D 感知任务和基于语言的任务)中,还是在野外。
摘要。我们为开放世界实例(OWIS)提出了一种方法,该任务旨在通过从训练过程中的一组有限的带注释的对象类中概括图像中的任意未知的观察。我们的细分对象系统(SOS)明确地解决了最先进系统的概括能力和低精度,这些系统通常会生成背景检测。为此,我们基于基础模型SAM [27]生成了高质量的伪注释。我们彻底研究了各种对象先验,以引起SAM的提示,并明确将基础模型集中在观察上。最强的物体先验是通过自我监督视觉变压器的自我发项图获得的,我们用来促使SAM。最后,SAM的后处理片段用作伪注释来训练标准实例分割系统。我们的方法在可可,LVI和ADE20K数据集上显示出强大的概括能力,并且与最先进的方法相比,精度提高了高达81.6%。源代码可用:https://github.com/chwilms/sos
类别不合时宜的对象计数旨在将图像中的所有对象计数相对于示例框或类名称,又称几个弹药和零照片计数。在本文中,我们提出了一个基于检测的几射击对象和零射击对象的广义框架。我们的框架结合了两个基础模型的出色优势,而不会损害其零拍的能力:(i)SAM将所有可能的对象分割为掩膜建议,以及(ii)剪辑来对建议进行分类以获得准确的对象计数。但是,这种策略遇到了效率过高的障碍,而无法局部和区分的小型拥挤的物体。要解决这些问题,我们的框架称为PSECO,遵循三个步骤:点,细分和计数。具体来说,我们首先提出了一个类不足的对象局部 - 为SAM提供准确但最小的提示,因此,这不仅会降低计算成本,而且还避免了缺少小对象。此外,我们采用了一种广义的对象分类,该对象分类利用剪辑图像/文本嵌入为分类器,遵循层次知识蒸馏,以获得层次掩盖建议中的歧视性层状。对FSC-147,可可和LVISMON的广泛实验结果,即PSECO在几次/零摄像对象计数/检测中都可以实现最先进的性能。
在最近的研究中,已对开放式摄制对象检测任务进行了大量关注,旨在概括训练期间标记的类别的有限级别,并检测推理时任意类别名称所描述的对象。与常规对象检测相比,打开的词汇对象检测在很大程度上扩展了对象检测类别。但是,它依赖于计算图像区域与一组具有验证视觉和语言模型的任意类别名称之间的相似性。这意味着,尽管具有开放式的性质,但该任务仍然需要在推理阶段的预定义对象类别。这提出了一个问题:如果我们在推理中对对象类别没有确切的了解,该怎么办?在本文中,我们称之为新的设置为生成性开放式对象检测,这是一个更普遍和实际的问题。为了解决它,我们将对象检测形式为生成问题,并提出了一个名为generateu的简单框架,该框架可以检测密集的对象并以自由形式的方式生成其名称。尤其是,我们采用可变形的DETR作为区域促成生成器,其语言模型将视觉区域转换为对象名称。为了评估自由形式的对象划分任务,我们介绍了一种评估方法,旨在定量测量生成量的性能。广泛的实验表明我们的生成量强烈的零射击性能。代码可在以下网址获得:https://github.com/foundationvision/generateu。例如,在LVIS数据集上,我们的GenerateU在推理过程中属于类别名称,即类别名称无法看到类别名称,即使类别名称看不见类别名称,我们的GenerateU也可以与开放式唱机对象检测方法GLIP相当。
对象检测和细分被广泛用于计算机视觉应用中,但是诸如Yolo系列的传统模型虽然有效而准确,但受预定义的类别的限制,从而阻碍了开放的SCE-Narios的适应性。最近的开放式方法利用文本提示,vi-sual提示或迅速的范式来克服这一点,但由于高计算需求或部署复合物而导致的性能和效率之间经常妥协。在这项工作中,我们介绍了Yoloe,该YOLOE在单个高效的模型中跨越了各种开放及时机制的检测和分割,实现了任何事物。对于文本提示,我们提出了可重新参数的区域文本对齐(REPRTA)策略。它通过重新参数轻巧的辅助网络来完善预处理的文本嵌入,并具有零推理和转移开销的视觉文本对齐。对于视觉提示,我们提出了语义激活的视觉提示编码器(SAVPE)。启用了解耦的语义和激活分支,以最小的复杂性带来了改进的视觉嵌入和准确性。对于迅速的场景,我们引入了懒惰的区域贡献对比(LRPC)策略。它利用大型词汇和专业嵌入中的内置来识别所有对象,避免了昂贵的语言模型。广泛的实验表明,Yoloe的出色零射击性能和可转移性具有较高的下降效率和低训练成本。值得注意的是,在LVIS上,训练成本较小,1.4倍推理加速,Yoloe-V8-S以3.5 AP超过Yolo-Worldv2-S。转移到可可时,Yoloe-V8-L可在封闭式的Yolov8-L上获得0.6 AP B,而较小的训练时间较小4倍。代码和型号可在https://github.com/thu-mig/yoloe上找到。