摘要 - 该研究旨在实施能够自主检测绵羊目标并在2D占用图上代表它们的系统,其最终目标是促进在UXV平台上自主牧羊。本文详细介绍了Blackboard System的开发,Blackboard System是一种用于自动目标检测和映射的软件解决方案。使用Python和C编程语言,Blackboard系统将单眼深度感测与自主目标检测,以产生全面的深度和目标图。这些地图是合并的,以产生从高架相机的角度捕获的操作区域的详细的2D鸟视图。黑板系统的独特功能是其模块化框架,它允许无缝更新或更换其深度传感和目标检测模块。
广泛应用于自主驾驶中的基于深度学习的单眼深度估计(MDE)很容易受到对抗性攻击的影响。先前针对MDE模型的物理攻击依赖于2D广泛的补丁,因此它们仅影响MDE地图中的一个小型局部区域,但在各种观点下都失败了。为了解决这些限制,我们提出了3D深度傻瓜(3d 2傻瓜),这是对MDE模型的第一个基于3D纹理的对抗性攻击。3d 2傻瓜被专门优化,以生成3D对抗纹理对型号的车辆类型,并在恶劣天气条件(例如雨水和雾)中具有改善的鲁棒性。实验结果验证了我们3d 2傻瓜在各种情况下的出色性能,包括车辆,MDE Mod-els,天气状况和观点。现实世界中使用打印3D纹理的实验实验进一步表明,我们的3d 2傻瓜可能会导致超过10米的MDE误差。该代码可在https://github.com/gandolfczjh/3d2fool上找到。
单眼3D检测(M3D)的目的是从单视图像中进行精确的3D观察定位,该图像通常涉及3D检测框的劳动密集型注释。最近已经研究了弱监督的M3D通过利用许多存在的2D注释来遵循3D注释过程,但通常需要额外的培训数据,例如LiDAR Point Clouds或多视图图像,这些数据会大大降低其在各种应用中的适用性和可用性。我们提出了SKD-WM3D,这是一个弱监督的单眼3D检测框架,利用深度插入以实现M3D,并具有单一视图图像,而无需任何3D注释或其他培训数据。SKD-WM3D中的一个关键设计是一个自我知识的蒸馏框架,它通过融合深度信息并有效地减轻单核场景中固有的深度模棱两可,从而将图像特征转换为3D类似的表示形式,而无需计算上的计算层面。此外,我们设计了不确定性感知的分离损失和梯度定位的转移调制策略,分别促进了知识获取和知识转移。广泛的实验表明,SKD-WM3D明显超过了最新的实验,甚至与许多完全监督的方法相当。
实现统一的单眼3D对象检测,包括室内和室外场景,在机器人导航等应用中非常重要。然而,涉及各种数据方案来训练模型引起了挑战,因为它们的特性显着不同,例如,二 - 几何特性和异质域分离。为了应对这些挑战,我们根据鸟类的视图(BEV)检测范式建立了一个检测器,在该检测范式中,当采用多个数据方案以训练检测器时,明确的特征投影有利于对几何学学习模棱两可。然后,我们将经典的BEV检测体系结构分为两个阶段,并提出了不均匀的BEV网格设计,以处理由上述Challenges引起的收敛不稳定。此外,我们开发了稀疏的BEV功能策略,以降低计算成本和处理异质域的统一操作方法。将这些技术结合起来,得出了一个统一的检测器Unimode,它超过了富有挑战性的Omni3D数据集(一个大规模的数据集(一个室内和室外场景))的先前最先进的AP 3D,揭示了Bev bev tor tor tor tor tor tor tor unified 3D对象的第一个成功概括。
我们提出了来自单眼RGB视频的动态3D头部重建的单眼神经参数头模型(Mono NPHM)。到此为止,我们提出了一个潜在的空间空间,该空间在神经参数模型的顶部参数化纹理场。我们限制了预测的颜色阀与基础几何形状相关,以便RGB的梯度有效地影响反向渲染过程中的潜在几何代码。为了提高表达空间的代表能力,我们使用超二维增强了向后变形场,从而在拓扑具有挑战性的表达式中显示出颜色和几何表示。使用Mono NPHM作为先验,我们使用基于符号距离字段的体积渲染来处理3D头重建的任务。通过nu毫无反转,我们使用面部锚点构成了具有里程碑意义的损失,这些损失与我们的规范几何表示紧密相关。为了评估单眼RGB视频的动态面部重建任务,我们在休闲条件下记录了20个具有挑战性的Kinect序列。单nphm超过 -
自主驾驶是未来的趋势。准确的3D对象检测是实现自动驾驶的先决条件。目前,3D对象检测依赖于三个主要传感器:单眼相机,立体声摄像机和LIDAR。与基于立体摄像机和激光镜头的方法相比,单眼3D对象检测提供了优势,例如广泛的检测字段和低部署成本。但是,现有的单眼3D对象检测方法的准确性不是理想的,尤其是对于遮挡目标。为了应对这一挑战,本文引入了一种新颖的方法,用于单眼3D对象检测,称为SRDDP-M3D,旨在通过考虑目标之间的空间关系,并通过脱钩方法来改进深度预测,以改善单眼3D对象检测。我们考虑如何在环境中相对于对象相对于对象的定位,并编码相邻对象之间的空间关系,对于遮挡的目标,检测性能是专门提高的。此外,还引入了将目标深度预测到目标视觉深度和目标属性深度的两个组成部分的策略。此解耦旨在提高预测目标整体深度的准确性。使用KITTI数据集的实验结果表明,这种方法显着提高了闭塞靶标的检测准确性。
静态馈送场景的最新进展已显示出高质量的新型视图合成中的显着进步。但是,这些模型通常会在各种环境中的普遍性中挣扎,并且无法有效处理动态内容。我们提出了BTIMER(Bullettimer的缩写),这是实时重建和动态场景的新型视图综合的第一个运动感知馈送模型。我们的方法通过从所有上下文框架中汇总信息,以给定目标(“子弹”时间戳)在给定目标的3D高斯分裂表示中重建整个场景。这样的公式允许BTIMER通过掌握静态和动态场景数据集来获得可扩展性和概括性。给定一个随意的单眼视频,BTimer在150ms内重建了子弹时间1场景,同时在静态和动态场景数据集上达到最先进的性能,
3D面部绩效捕获是几种应用中的关键组成部分,包括AR或VR中的身临其境的触觉以及娱乐行业的视觉效果。生产高质量的恢复通常需要大量的财务,时间和资源投资。这不仅涉及昂贵的3D捕获设备[Beeler等。2010; Debevec等。2000],基于精确的标记跟踪系统[Bennett and Carter 2014]或头部安装式分配[Brito and Mitchell 2019],但也从演员那里进行了大量的捕捉时间。无标记的捕获设置是简化该管道的有希望的解决方案,但是高质量的结果仍然依赖于复杂的钻机[Helman等。2020]或大型个性化培训数据集[Laine等。2017; Wu等。2018]。在频谱的另一端是3D重建方法,可以在负担得起的消费者等级硬件中使用图像或视频操作。主要思想是使用3D面的统计模型 - 所谓的3D形态模型(3DMMS),它们使用基于优化的[Andrus等人都拟合到RGB图像或2D地标。2020; Zielonka等。2022]或基于学习的方法[Danecek等。2022;冯等人。2021; Retsinas等。2024]。统计模型的先验知识有助于克服问题的不良性质,而基于学习的技术的发展使姿势,照明和闭塞的前所未有的鲁棒性。但是,这是以较低的几何质量为代价的,仅提供了形状和表达的粗略近似,而该形状和表达却差不多。
自我监督的单眼深度估计(DE)是一种学习深度的方法,没有昂贵的深度地面真理。但是,它经常在移动物体上挣扎,这些物体违反了训练期间的静态场景假设。为了结束这个问题,我们介绍了一个粗到最新的训练策略,该策略利用了地面与先验接触的地面,该期望是在户外场景中大多数移动物体在地面上造成的。在粗糙的训练阶段,我们将动态类中的对象排除在再投入损失计算中,以避免深度学习不准确。为了对物体的深度进行精确的监督,我们提出了一种新颖的接地式差异平滑度损失(GDS-loss),该损失(GDS-loss)鼓励DE网络将物体的深度与其接地接触点保持一致。随后,在精细的训练阶段,我们完善了DE网络,以了解重新投影损失中对象的详细深度,同时通过使用基于成本量的加权因素利用我们的正则化损失来确保对移动对象区域的准确DE。我们的整体粗表表训练策略可以轻松地与无需修改的方法集成,从而显着提高了挑战性的城市景观和KITTI数据集的DE性能,尤其是在移动对象区域中。