摘要 - 大型和高质量的培训数据集对于深度学习至关重要。在无人机空中图像的语义分割挑战的背景下,我们提出了一种数据增强策略,该策略可以大大减少手动注释大量图像的努力。结果是一组语义,深度和RGB图像,可用于改善神经网络的性能。该方法的主要重点是生成语义图像,并且在整个过程中也生成了深度和纹理图像。提出的语义图像产生方法依赖于现实环境的3D语义网格表示。首先,我们将现有的语义信息从简化的手动标记图像集中传播到网格表示中。要处理手动标记的图像中的错误,我们为传播过程提出了一种特定的加权投票机制。第二,我们使用语义网络创建新图像。这两个步骤都使用透视投影机制和深度缓冲算法。可以使用不同的相机方向生成图像,从而允许新颖的视角。我们的方法在概念上是一般的,可用于改善各种现有数据集。对使用该方法进行增强的现有数据集(UAVID和WILDUAV)进行的实验是在HRNET上进行的。获得了推理结果的总体绩效提高高达5.5%(MIOU)。增强数据集在GitHub 1上公开可用。索引术语 - 语义图像,无人机,数据增强,图像生成,空中图像,Z-Buffer,深度缓冲区,透视投影,虚拟相机。
摘要:本文提出了一种稳健、准确的飞机姿态估计方法。飞机姿态反映了飞机的飞行状态,准确的姿态测量在许多航空航天应用中都非常重要。本工作旨在建立一个基于通用几何结构特征的飞机姿态估计通用框架。该方法提取线特征来描述单幅图像中的飞机结构,并利用通用几何特征形成线组以进行飞机结构识别。利用平行线聚类来检测机身参考线,飞机的双侧对称特性为弱透视投影下机翼边缘线的提取提供了重要约束。在识别飞机主要结构后,采用平面相交法根据建立的线对应关系获得三维姿态参数。我们提出的方法可以增加双目视觉传感器的测量范围,并且具有不依赖于三维模型、合作标记或其他特征数据集的优势。实验结果表明,我们的方法可以获得不同类型飞机的可靠和准确的姿态信息。
第一单元:CAD 工具:CAD 工具的定义、图形标准、图形软件:图形软件的要求、CAD 的功能领域、CAD 软件的有效使用。几何造型基础:几何 3D 造型的要求、几何模型、几何构造方法、所需造型设施。第二单元:几何造型:线框实体的分类、曲线表示方法、解析曲线的参数表示:直线、圆、圆弧、圆锥曲线、合成曲线的参数表示:Hermite 三次曲线、Bezier 曲线、B-Spleen 曲线、NURBS、曲线操作。第三单元:曲面造型:曲面实体的分类、曲面表示方法、解析曲面的参数表示:平面、直纹曲面、旋转曲面、表格圆柱、合成曲线的参数表示:Hermite 三次曲面、Bezier 曲面、B-Sp 线曲面、混合曲面、曲面操作。第四单元:实体造型:几何和拓扑、边界表示、欧拉-庞加莱公式、欧拉算子、构造实体几何:CSG 基元、布尔算子、CSG 表达式、内部、外部、闭包、扫描:线性和非线性、实体操作、特征造型。第五单元:变换:2-D 和 3-D 变换:平移、缩放、旋转、反射、连接、齐次坐标、透视投影、正交各向异性投影、等距投影、隐藏表面消除、阴影、渲染。评估标准:CAD 软件评估标准,数据交换格式:GKS、IGES、PHIGS、CGM、STEP 尺寸和公差:线性、角度、角度尺寸、最大实体条件 (MMC)、最小实体条件 (LMC)、无论特征尺寸如何 (RFS)。教科书:
来自图像的深度估计是具有广泛应用的计算机视觉中的一个长期问题。对于基于视觉的自动驾驶系统,感知深度是理解道路对象和建模3D环境图的相关性的不可或缺的模块。由于深度神经网络用于求解各种视觉概率,因此基于CNN的方法[2-5,13,39 - 42,44,44,46,48,52]主导了各种深度基准。根据输入格式,它们主要将其分为多视图深度估计[3,13,23,26,44,45,51,53]和单视深度估计[14 - 16,19,37,38]。多视图方法估计深度的假设,即给定的深度,相机校准和摄像头姿势,这些像素应相似。他们依靠表现几何形状来三角形高质量深度。但是,多视图方法的准确性和鲁棒性在很大程度上依赖于相机的几何配置以及视图之间匹配的对应关系。首先,需要足够翻译相机以进行三角度。在自主驾驶的情况下,汽车可能会停在交通信号灯处或不移动而不移动,这会导致故障三角剖分。此外,多视图方法遭受动态对象和无动电区域的影响,它们在自动驱动方案中无处不在。另一个问题是对移动车辆的施加优化。在存在的大满贯方法中不可避免地噪声,更不用说具有挑战性和可取的情况了。具体来说,我们提出了一个两个分支网络,即例如,一辆机器人或自动驾驶汽车可以在不重新校准的情况下部署多年,原因是嘈杂的姿势。相比之下,作为单视图方法[14 - 16,19,37,38]依赖于对场景的语义理解和透视投影提示,它们对无纹理区域,动态对象,而不是依赖相机姿势更为易用。但是,由于规模歧义,其性能仍然远非多视图方法。在这里,我们倾向于考虑是否可以很好地结合两种方法的好处,以实现自主驾驶场景中的稳健和准确的单眼视频深度估计。尽管已经在先前的工作中探索了基于融合的系统[1,9],但他们都假定了理想的相机姿势。结果是融合系统的性能甚至比单视深度估计的噪声姿势还差。为了解决这个问题,我们提出了一个新型的自适应融合网络,以利用多视图和单视图方法的优势,并减轻其缺点,以保持高度的精度,并在噪声姿势下提高系统的影响力。一个靶向单眼深度提示,而另一个则利用多视图几何形状。两个分支都预测了深度图和置信图。补充语义提示和边缘细节在多视图分支的成本汇总中丢失了