雷达相机3D对象检测旨在与雷达信号与摄像机图像进行交互,以识别感兴趣的对象并定位其相应的3D绑定框。为了克服雷达信号的严重稀疏性和歧义性,我们提出了一个基于概率deno的扩散建模的稳健框架。我们设计了框架,可以在不同的多视图3D检测器上易于实现,而无需在训练或推理过程中使用LiDar Point Clouds。在特定的情况下,我们首先通过开发带有语义嵌入的轻质DENOIS扩散模型来设计框架编码器。其次,我们通过在变压器检测解码器的深度测量处引入重建训练,将查询降解训练开发为3D空间。我们的框架在Nuscenes 3D检测基准上实现了新的最新性能,但与基线检测器相比,计算成本的增加很少。
近年来,基于深度学习的目标检测取得了长足的进步。然而,由于域转移问题,将现成的检测器应用于看不见的域会导致性能大幅下降。为了解决这个问题,本文提出了一种新的由粗到细的特征自适应方法用于跨域目标检测。在粗粒度阶段,与文献中使用的粗糙的图像级或实例级特征对齐不同,采用注意机制提取前景区域,并通过在公共特征空间中多层对抗学习根据其边缘分布进行对齐。在细粒度阶段,我们通过最小化来自不同域但属于同一类别的全局原型的距离来进行前景的条件分布对齐。由于这种由粗到细的特征自适应,前景区域中的领域知识可以得到有效的迁移。在各种跨域检测场景中进行了大量的实验。结果是最先进的,证明了所提出方法的广泛适用性和有效性。
我们提出了一种类别级 6D 物体姿势和大小估计的新方法。为了解决类内形状变化,我们学习了规范形状空间 (CASS),它是特定物体类别的大量实例的统一表示。具体而言,CASS 被建模为具有规范化姿势的规范 3D 形状的深度生成模型的潜在空间。我们训练变分自动编码器 (VAE) 以从 RGBD 图像在规范空间中生成 3D 点云。VAE 以跨类别的方式进行训练,利用公开可用的大型 3D 形状存储库。由于 3D 点云是以规范化姿势(具有实际大小)生成的,因此 VAE 的编码器学习视图分解的 RGBD 嵌入。它将任意视图中的 RGBD 图像映射到与姿势无关的 3D 形状表示。然后,通过将物体姿势与使用单独的深度神经网络提取的输入 RGBD 的姿势相关特征进行对比来估计物体姿势。我们将 CASS 的学习和姿势和尺寸估计集成到端到端可训练网络中,实现了最先进的性能。
对象检测在各种自主系统中至关重要,例如监视,自动驾驶和驾驶员的稳定性,通过识别行人,车辆,交通信号灯和标志来确保安全。然而,诸如雪,雾和雨等不利天气条件构成了挑战,具有检测准确性,冒险发生事故和大坝。这清楚地表明了在所有天气条件下都起作用的强大观察检测解决方案的必要性。我们采用了三种策略来增强不利天气中的基于深度学习的对象检测:对全球全天候图像进行培训,对图像进行培训,并具有合成的增强天气噪声,并将对象的变形与不利天气图像denosistighting进行整合。使用分析方法,GAN网络和样式转移网络产生合成天气噪声。我们使用BDD100K数据集中的真实世界全天候图像和用于评估未见现实世界的不利天气图像的评估,通过训练对象进行分割模型比较了这些策略的性能。通过降级现实世界的不利天气图像以及对物体检测的结果和原始嘈杂图像的结果进行了评估,从而评估了不利天气。我们发现,使用全天候现实世界图像训练的模型表现最佳,而对对象检测进行对象检测的策略则表现最差。
尽管最近的研究通过深度学习技术突破了极限,但从 3D 点云中进行物体检测仍然是一项具有挑战性的任务。由于严重的空间遮挡和点密度随到传感器距离的固有变化,同一物体在点云数据中的外观会有很大变化。因此,设计针对这种外观变化的鲁棒特征表示是 3D 物体检测方法的关键问题。在本文中,我们创新地提出了一种类似域自适应的方法来增强特征表示的鲁棒性。更具体地说,我们弥合了特征来自真实场景的感知域和特征从由富含详细信息的非遮挡点云组成的增强场景中提取的概念域之间的差距。这种领域自适应方法模仿了人脑在进行物体感知时的功能。大量实验表明,我们简单而有效的方法从根本上提高了 3D 点云物体检测的性能并取得了最先进的结果。
人类的生命中有铰接的物体。对清晰的物体的综合理解,即外观,结构,物理特性和语义,将使许多研究社区受益。作为当前的符号对象理解解决方案通常是基于具有无物理属性的CAD模型的合成对象数据集,从而阻止了在视觉和机器人任务中的实现对现实世界应用的满足概括。为了弥合差距,我们提出了AKB-48:一个大规模的对象k nowledge b ase,由48个猫咪的2,037个现实世界3D 3D铰接式对象模型组成。每个对象由知识图Artikg描述。为了构建AKB-48,我们提出了快速的发音知识建模(FARM)管道,可以在10-15分钟内满足铰接对象的Artikg,并在很大程度上降低了Real
《中华人民共和国国民经济和社会发展第十四个五年规划和二零三五年远景目标纲要》是根据《中共中央关于制定国民经济和社会发展第十四个五年规划和二零三五年远景目标的建议》制定的,它明确了国家的战略意图,明确了政府工作重点,引导和规范了市场主体行为,是中国开启全面建设社会主义现代化国家新征程的宏伟蓝图,是全体中国人民的共同行动纲领。
基于扩散的生成模型在合成和操纵图像具有巨大的图像方面表现出了令人鼓舞的结果,其中文本到图像模型及其后续作品在学术界和行业中都具有很大的影响。编辑真实图像时,用户通常希望对不同元素具有直观而精确的控制(即对象)组成图像,并不断地操纵它们。我们可以根据图像中的单个观察的控制级别对现有的图像编辑方法进行分类。一条工作涉及使用文本提示来操纵图像[2,15,24,27]。由于很难与文本同时描述多个对象的形状和外观,因此在对象级别上对细粒度控制的能力有限。同时,迅速的工程使操纵任务乏味且耗时。另一项工作线使用低级调理信号,例如Hu等人。[18],Patashnik等。[34],Zeng等。[58],草图[50],图像[5,47,54]编辑图像。但是,其中大多数作品要么属于迅速的工程陷阱,要么无法独立操纵多个对象。与以前的作品不同,我们的目标是独立控制组成图像的多个对象的正确条件,即对象级编辑。我们表明,我们可以在对象级编辑框架下制定各种图像编辑任务,从而实现全面的编辑功能。
摘要。通过互补感应方式整合各种表示形式对于自主驾驶中的强大场景解释至关重要。近年来,融合视觉和范围数据的深度学习体系结构具有先进的2D和3D对象检测。但是,这些方式在不利的天气或照明条件下通常会降解,从而导致性能下降。虽然已经开发了域适应性甲基元素来弥合源域和目标域之间的缝隙,但由于源和目标域之间的固有差异,它们通常会缺乏。此差异可以在数据的不同分布和不同特征空间的不同分布中表现出来。本文介绍了一个全面的域自适应对象检测框架。通过深度转移学习开发,该框架旨在从标记的透明天气数据中稳健地概括到无标记的不良天气条件,从而增强了基于深度学习的对象检测模型的性能。创新的斑块熵融合模块(PEFM)是我们方法的核心,该方法动态整合了sens-sor数据,强调关键信息并最大程度地减少了背景干扰。这进一步补充了一种新型的加权决策模块(WDM),该模块(WDM)根据其在特定环境条件下的功效来调整不同传感器的贡献,从而优化了检测准确性。此外,我们在转移学习过程中集成了域对齐损失,以确保有效的域适应性通过将特征图差异定于清晰和不利天气数据集之间的差异。我们评估了不同数据集的模型,包括Exdark(单峰),CityScapes(单峰)和密集(Mul-timodal),在我们评估的时间点,它在所有数据集中排在所有数据集中。
以生物风格的活动相机跟踪近年来引起了人们的兴趣。现有的作品要么利用对齐的RGB和事件数据进行准确跟踪,要么直接学习基于事件的跟踪器。前者会产生较高的推理成本,而后者可能容易受到嘈杂事件或稀疏空间分辨率的影响。在本文中,我们提出了一个新型的分层知识蒸馏框架,该框架可以在培训期间完全利用多模式 /多视图信息,以促进知识转移,使我们能够仅使用事件信号来实现测试过程中高速和低潜伏期视觉跟踪。特别是,基于教师变压器的多模态跟踪框架首先是通过同时喂食RGB框架和事件流来训练的。然后,我们设计了一种新的分层知识蒸馏策略,其中包括成对相似性,功能表示和基于响应地图的知识蒸馏,以指导学生变形金刚网络的学习。在术语中,由于现有的基于事件的跟踪数据集都是低分辨率(346×260),因此我们提出了名为EventVot的第一个大规模高分辨率(1280×720)数据集。它包含1141个视频,并涵盖了许多类别,例如行人,车辆,无人机,乒乓球等。对低分辨率(Fe240Hz,Vi-Sevent,Coesot)和我们新提出的高分辨率EventVot数据集的进行了实验进行了实验
