从遥感图像中自动提取建筑物轮廓线已用于更新城市地区的地理空间数据库 [1]。高分辨率星载立体 (HRSS) 传感器(例如 GeoEye、WorldView、QuickBird)的发射开启了一个新时代,提供了从太空获取立体图像和 3D 地图的可能性 [2]。事实上,建筑物识别、重建和变化检测已经使用立体图像匹配以及 3D 边缘匹配技术进行 [3,5-6]。如 [3] 所述,基于立体图像的 3D 边缘匹配提供了有希望的结果,但前提是建筑物在数据的空间分辨率方面足够大、具有简单的矩形形状并且与周围物体相比具有良好的辐射对比度。事实上,虽然使用非常高分辨率的航空图像进行 3D 边缘匹配可以详细重建建筑物轮廓线 [7],但使用星载图像,同样的方法可能会遇到问题,特别是在两幅对极图像中都无法清晰检测到建筑物轮廓的情况下。此外,虽然影像匹配提供了代表建筑物高度的DSM,但是从该DSM提取的建筑物大小和形状通常被高估,因此需要辅助信息。
从遥感图像中自动提取建筑物轮廓线已用于更新城市地区的地理空间数据库 [1]。高分辨率星载立体 (HRSS) 传感器(例如 GeoEye、WorldView、QuickBird)的发射开启了一个新时代,提供了从太空获取立体图像和 3D 地图的可能性 [2]。事实上,建筑物识别、重建和变化检测已经使用立体图像匹配以及 3D 边缘匹配技术进行 [3,5-6]。如 [3] 所述,基于立体图像的 3D 边缘匹配提供了有希望的结果,但前提是建筑物在数据的空间分辨率方面足够大、具有简单的矩形形状并且与周围物体相比具有良好的辐射对比度。事实上,虽然使用非常高分辨率的航空图像进行 3D 边缘匹配可以详细重建建筑物轮廓线 [7],但使用星载图像,同样的方法可能会遇到问题,特别是在两幅对极图像中都无法清晰检测到建筑物轮廓的情况下。此外,虽然影像匹配提供了代表建筑物高度的DSM,但是从该DSM提取的建筑物大小和形状通常被高估,因此需要辅助信息。
纸张涉及视觉伺服(VS),这是一种使用视觉信息引导机器人的众所周知的方法。在这里,将图像处理,机器人技术和控制理论组合在一起,以控制机器人的运动。该主题解释了VS的分类以及不同的相机配置及其控件。它还涵盖了图像处理,姿势估计,立体声视觉和摄像机校准,以机器人概念为例。图像处理包括两个基本操作:图像分割和图像解释。姿势代表机器人的位置和方向,该位置和方向是通过分析溶液,相互作用矩阵和算法溶液估算的。立体视觉代表基于机器人左和右眼(相机)对象图像之间的双眼差的对象深度的计算。对象的深度是通过四种基本方法计算的:来自平面同构象的表现几何,三角剖分,绝对取向和3D重建。摄像机校准是确定特定相机参数的过程,以便使用指定的测量完成操作。此外,它还侧重于基于3D视觉伺服和深层神经网络的机器人操纵(在学校中的娱乐场所),非线性鲁棒性视觉伺服器控制,用于机器人柑橘的收获,基于图像的磁滞性减少,以减少灵活的内窥镜仪器(Laparososcic Robotic robotic Sulobots)。
摘要:同时定位和映射(SLAM)对于移动机器人技术至关重要。大多数vi-sual SLAM系统都假定环境是静态的。但是,在现实生活中,有许多动态对象,会影响这些系统的准确性和鲁棒性。为了改善视觉大满贯系统的表现,这项研究提出了基于定向的快速和旋转简短(ORB)-Slam3框架的动态视觉大满贯(SEG-SLAM)系统,您只能看一次(YOLO)V5深学习方法。首先,基于ORB-SLAM3框架,Yolov5深学习方法用于构建用于目标检测和语义分割的融合模块。此模块可以有效地识别并提取明显和潜在动态对象的先验信息。第二,使用先前的信息,深度信息和表现几何方法为不同的动态对象开发了差异化的动态特征拒绝策略。因此,提高了SEG-SLAM系统的定位和映射准确性。最后,拒绝结果与深度信息融合在一起,并使用点云库构建了无动态对象的静态密集映射。使用公共TUM数据集和现实世界情景评估SEG-SLAM系统。所提出的方法比当前动态视觉大满贯算法更准确,更健壮。
摘要:SLAM是一种至关重要的技术,用于实现无人车辆的自主导航和定位。传统的视觉同时本地化和映射算法建立在静态场景的假设上,从而忽略了动态目标在现实世界环境中的影响。来自动态目标的干扰可以显着降低系统的定位精度,甚至导致跟踪故障。为了解决这些问题,我们提出了一个名为S-Slam的动态视觉大满贯系统,该系统基于“同样和语义信息提取”。最初,引入了词汇描述符来描述定向的快速特征点,从而提高了特征点匹配的精度和速度。随后,fasternet替换了Yolov8的骨干网络以加快语义信息提取。通过使用DBSCAN聚类对象检测的结果,获得了更精致的语义掩码。最后,通过利用语义面膜和表现约束,可以辨别和消除动态特征点,从而仅利用仅利用静态特征点进行姿势估计,并构建了不包括动态目标的密集3D地图。在TUM RGB-D数据集和现实世界情景上进行了实验评估,并证明了拟议算法在滤除场景中的动态目标方面的有效性。与Orb-Slam3相比,TUM RGB-D数据集的本地化准确性提高了95.53%。针对经典动态大满贯系统的比较分析进一步证实了通过lam的定位准确性,地图可读性和鲁棒性的提高。
来自图像的深度估计是具有广泛应用的计算机视觉中的一个长期问题。对于基于视觉的自动驾驶系统,感知深度是理解道路对象和建模3D环境图的相关性的不可或缺的模块。由于深度神经网络用于求解各种视觉概率,因此基于CNN的方法[2-5,13,39 - 42,44,44,46,48,52]主导了各种深度基准。根据输入格式,它们主要将其分为多视图深度估计[3,13,23,26,44,45,51,53]和单视深度估计[14 - 16,19,37,38]。多视图方法估计深度的假设,即给定的深度,相机校准和摄像头姿势,这些像素应相似。他们依靠表现几何形状来三角形高质量深度。但是,多视图方法的准确性和鲁棒性在很大程度上依赖于相机的几何配置以及视图之间匹配的对应关系。首先,需要足够翻译相机以进行三角度。在自主驾驶的情况下,汽车可能会停在交通信号灯处或不移动而不移动,这会导致故障三角剖分。此外,多视图方法遭受动态对象和无动电区域的影响,它们在自动驱动方案中无处不在。另一个问题是对移动车辆的施加优化。在存在的大满贯方法中不可避免地噪声,更不用说具有挑战性和可取的情况了。具体来说,我们提出了一个两个分支网络,即例如,一辆机器人或自动驾驶汽车可以在不重新校准的情况下部署多年,原因是嘈杂的姿势。相比之下,作为单视图方法[14 - 16,19,37,38]依赖于对场景的语义理解和透视投影提示,它们对无纹理区域,动态对象,而不是依赖相机姿势更为易用。但是,由于规模歧义,其性能仍然远非多视图方法。在这里,我们倾向于考虑是否可以很好地结合两种方法的好处,以实现自主驾驶场景中的稳健和准确的单眼视频深度估计。尽管已经在先前的工作中探索了基于融合的系统[1,9],但他们都假定了理想的相机姿势。结果是融合系统的性能甚至比单视深度估计的噪声姿势还差。为了解决这个问题,我们提出了一个新型的自适应融合网络,以利用多视图和单视图方法的优势,并减轻其缺点,以保持高度的精度,并在噪声姿势下提高系统的影响力。一个靶向单眼深度提示,而另一个则利用多视图几何形状。两个分支都预测了深度图和置信图。补充语义提示和边缘细节在多视图分支的成本汇总中丢失了