自我监督的单眼深度估计(DE)是一种学习深度的方法,没有昂贵的深度地面真理。但是,它经常在移动物体上挣扎,这些物体违反了训练期间的静态场景假设。为了结束这个问题,我们介绍了一个粗到最新的训练策略,该策略利用了地面与先验接触的地面,该期望是在户外场景中大多数移动物体在地面上造成的。在粗糙的训练阶段,我们将动态类中的对象排除在再投入损失计算中,以避免深度学习不准确。为了对物体的深度进行精确的监督,我们提出了一种新颖的接地式差异平滑度损失(GDS-loss),该损失(GDS-loss)鼓励DE网络将物体的深度与其接地接触点保持一致。随后,在精细的训练阶段,我们完善了DE网络,以了解重新投影损失中对象的详细深度,同时通过使用基于成本量的加权因素利用我们的正则化损失来确保对移动对象区域的准确DE。我们的整体粗表表训练策略可以轻松地与无需修改的方法集成,从而显着提高了挑战性的城市景观和KITTI数据集的DE性能,尤其是在移动对象区域中。
摘要 - 语义分割和立体声匹配是用于自动驾驶的3D环境感知系统的两个基本组成部分。然而,传统方法通常独立解决这两个问题,并采用每个任务的单独模型。这种方法在现实情况下构成了实际限制,尤其是当计算资源稀缺或实时绩效是必须的。因此,在本文中,我们介绍了S 3 M-NET,这是一个新型的联合学习框架,旨在同时执行语义分割和立体声匹配。特别是S 3 M-NET共享从这两个任务之间从RGB图像中提取的功能,从而提高了整体场景理解能力。使用特征融合适应(FFA)模块实现此功能共享程序,该模块有效地将共享特征转换为语义空间,然后将它们与编码的差异功能融合在一起。整个联合学习框架是通过最大程度地减少新颖的语义一致性引导(SCG)损失来训练的,该损失强调了这两个任务的结构一致性。与其他最先进的单个任务网络相比,在VKITTI2和KITTI数据集上进行的广泛实验结果揭示了我们提出的联合学习框架的有效性及其优越的性能。我们的项目网页可在mias.group/s3m-net上访问。
本文旨在设计具有更好概括能力的单眼深度估计模式。为此,我们进行了定量分析,并发现了两个重要的见解。首先,在长尾分类问题中发现的模拟相关现象也存在于单眼深度估计中,这表明训练数据中深度分布的不平衡分布可能是导致泛化能力有限的原因。第二,深度值的不平衡和长尾分布范围超出了数据集量表,并且在每个单独的图像中也表现出来,进一步表达了单眼深度估计的挑战。通过上述发现,我们提出了距离感知的多专家(DME)深度估计模型。与先前的方法不同地处理不同深度范围的方法不同,DME采用了分歧和诱使哲学,每个专家都负责对特定深度范围内的区域进行深度估计。因此,每个专家看到的深度分布更加统一,并且可以更容易预测。一个像素级路由模块的进一步设计和学会了,以将所有专家的预测缝合到最终的深度图中。实验表明,DME在NYU-DEPTH V2和KITTI上都达到了最先进的性能,并且还可以在看不见的数据集上提供有利的零拍概括能力。
单眼3D对象检测通常采用直接或静脉标签的监督。最近,蒸馏监督将空间知识从激光雷达或立体声教师网络转移到单眼探测器,但仍保留域间隙。To mitigate this issue and pursue ade- quate label manipulation, we exploit F oreground D epth map for feature-supervised monocular 3D object detection named FD3D , which develops the high-quality instructive interme- diate features to conduct desirable auxiliary feature supervi- sion with only the original image and annotation foreground object-wise depth map (AFOD) as input.此外,我们基于图像功能和预处理的AFOD之间的足够相互关系来建立我们的具有启发性的功能生成网络,以构建具有启发性的空间特征,在此中,AFOD仅将注意力集中在前景上,以在检测任务中获得更清晰的指导。更重要的是,我们应用了从像素和分布级别的辅助功能监督,以实现全面的空间知识指导。广泛的实验表明,我们的方法在Kitti和Nuscenes数据集上都实现了最先进的性能,没有外部数据,也没有额外的推理计算成本。我们还进行实验以揭示设计的有效性。
摘要尽管有望在视觉和机器人社区中进行大满贯研究,这些研究从根本上维持了智能无人系统的自主权,但视觉挑战仍然严重威胁其强大的操作。现有的大满贯方法通常集中在特定的挑战上,并通过复杂的增强或多模式融合来解决问题。然而,它们基本上仅限于特定场景,并具有非量化的理解和对挑战的认识,从而导致性能下降,并且具有较差的概括,并且(或)具有冗余机制的冗余计算。为了推动Visual Slam的边界,我们提出了一个完全计算可靠的评估模块,称为CEMS(SLAM的挑战评估模块),以基于明确的定义和系统分析,以进行一般视觉感知。它将各种挑战分解为几个共同方面,并使用相应的指标评估退化。广泛的实验证明了我们的可行性和表现不佳。与注释地面真相相比,所提出的模块的一致性为88.298%,与SLAM跟踪性能相比,强大的相关性为0.879。此外,我们根据CEMS显示了具有更好性能的CEM的原型大满贯,并且第一个全面的CET(挑战评估表)(EUROC,KITTI等)对各种挑战的客观和公平评估。我们使其在线提供,从而在我们的网站上受益。
To ensure reliable environmental perception in the realm of autonomous driving, precise and robust multi- object tracking proves imperative.This study proposes an innovative approach to multi-object tracking by combining YOLOv9's sophisticated detection capabilities with an enhanced DeepSORT tracking algorithm, enriched through the integration of optical flow.In the proposed method, the YOLOv9 detector acutely identifies objects in input images, and these detected entities are subsequently transmitted to the optimized DeepSORT tracking algorithm.The principal contribution of this study lies in improving the Kalman filter measurement model within DeepSORT by incorporating robust local optical flow, thus adding a velocity dimension to the filter's update vector.这种新颖的方法可显着提高遮挡,快速运动和外观变化的追踪弹性。Evaluations on MOT17 and KITTI show substantial improvement gains of 2.42%, 2.85%, and 1.84% for HOTA, MOTA, and IDF1, respectively, on MOT17, and 1.94% in MOTA and 2.09% in HOTA on KITTI.The proposed method particularly excels in managing scenarios involving dense traffic and light variations, which are recurrent problems in dynamic urban environments.This enhanced performance positions the proposed solution as an essential component of future perception architectures for autonomous vehicles, promising safer and more efficient navigation in the complex real world.
摘要 — 虽然基于深度学习的图像去雨方法近年来取得了长足的进步,但在实际应用中仍存在两个主要缺点。首先,以去雨为代表的低级视觉任务与以物体检测为代表的高级视觉任务之间的差距很大,低级视觉任务几乎无法为高级视觉任务做出贡献。其次,去雨数据集的质量有待提高。事实上,很多基线中的雨线与真实的雨线差距很大,去雨数据集图像的分辨率普遍不理想。同时,低级视觉任务和高级视觉任务很少有共同的数据集。本文探索了低级视觉任务与高级视觉任务的结合。具体而言,我们提出了一种用于减少降雨影响的端到端物体检测网络,该网络由两个级联网络组成,分别是一个改进的图像去雨网络和一个物体检测网络。我们还设计了损失函数的组件以适应不同子网络的特征。然后,我们基于 KITTI 数据集提出了一个用于雨水去除和物体检测的数据集,我们的网络在该数据集上超越了最先进的技术,指标有了显著的提高。此外,我们提出的网络在自动驾驶汽车收集的驾驶视频上进行了测量,并在雨水去除和物体检测方面显示出了积极的结果。
摘要 - 不监督的单眼深度估计框架 - 作品显示出有希望的自主驱动性能。但是,现有的解决方案主要依靠一个简单的召集神经网络来进行自我恢复,该网络努力在动态,复杂的现实世界情景下估算精确的相机姿势。这些不准确的相机姿势不可避免地会恶化光度重建,并误导了错误的监督信号的深度估计网络。在本文中,我们介绍了Scipad,这是一种新颖的方法,它结合了无监督的深度置式联合学习的空间线索。具体来说,提出了一种置信度特征流估计器来获取2D特征位置翻译及其相关的置信度。同时,我们引入了一个位置线索聚合器,该位置线索聚合器集成了pseudo 3D点云中的depthnet和2D特征流入均匀的位置表示。最后,提出了一个分层位置嵌入喷油器,以选择性地将空间线索注入到鲁棒摄像机姿势解码的语义特征中。广泛的实验和分析证明了与其他最新方法相比,我们的模型的出色性能。非常明显的是,Scipad的平均翻译误差降低了22.2%,而Kitti Odometry数据集的相机姿势估计任务的平均角误差为34.8%。我们的源代码可在mias.group/scipad上找到。
单眼深度估计是计算机视觉中的持续挑战。变压器模型的最新进展证明了与该领域的召开CNN相比,具有显着的优势。但是,了解这些模型如何优先考虑2D图像中不同区域的优先级以及这些区域如何影响深度估计性能。探索变压器和CNN之间的差异,我们采用了稀疏的像素方法对比分析两者之间的区别。我们的发现表明,尽管变形金刚在处理全球环境和错综复杂的特征方面表现出色,但它们在保留深度梯度连续性方面落后于CNN。为了进一步增强在单眼深度估计中的变压器模型的性能,我们提出了深度梯度改进(DGR)模块,该模块通过高阶分化,特征融合和重新校准来完善深度估计。此外,我们利用最佳运输理论,将深度图视为空间概率分布,并采用最佳传输距离作为损失函数来优化我们的模型。实验结果表明,与插件深度梯度改进(DGR)模块集成的模型以及所提出的损失函数可增强性能,而无需增加室外Kitti和室内NYU-DEPTH-V2数据集的复杂性和计算成本。这项研究不仅提供了深入估计转换器和CNN之间区别的新见解,而且还为新颖的深度估计方法铺平了道路。
单眼深度估计是计算机视觉中的持续挑战。变压器模型的最新进展与该领域的常规CNN相比表现出显着的优势。但是,这些模型如何优先考虑2D图像中的不同区域以及这些区域如何影响深度估计性能,仍然存在差距。探索转移器和CNN之间的差异,我们采用了稀疏的像素方法来对比分析两者之间的区别。我们的发现表明,尽管变形金刚在全球环境和错综复杂的纹理中表现出色,但它们却落后于保留深度梯度连续性。在单眼深度估计中增强了变压器模型的性能,我们提出了深度差异(DGR)模块,该模块通过高阶分化,特征融合和重新校准来完善深度估计。此外,我们利用最佳运输理论,将深度图视为空间概率分布,并采用最佳运输距离作为损失函数来优化我们的模型。实验结果表明,与插入深度梯度改进(DGR)模块集成的模型以及置换损失函数可增强性能,而无需增加室外Kitti和Indoor Nyu-Depth-v2数据集的复杂性和计算成本。这项研究不仅提供了深入估计变压器和CNN之间区别的新见解,而且还为新颖的深度估计方法铺平了道路。