摘要:要自动测量圆柱工件的表面表面,本文提出了高精度的多光束光学方法。首先,在不同的光方向下,多光束角传感器获得了圆柱工件表面的一些连续图像。然后,根据图像中的特征区域估算光方向以计算表面正常向量。最后,根据表面正常矢量和工件表面的垂直部分的关系,重建了深度图以实现曲率表面,可用于测量圆柱工件表面的曲率半径。实验结果表明,所提出的测量方法可以以10.226 s的合理速度以0.89%的曲率半径的平均误差来实现良好的测量精度,这比现有方法优于某些现有方法。
从2D图像中估算深度在各种应用中至关重要,例如对象识别,场景重建和导航至关重要。它在增强现实,图像重新关注和细分方面具有显着优势。在本文中,我们根据传输学习编码器和高级解码器结构提出了一个优化的U-NET网络,以估算单个2D图像的深度。编码器– decoder架构是从Resnet152v2构建的,作为编码器和改进的基于U-NET的解码器,以实现准确的深度预测。引入的RESNET152V2网络已在广泛的Imagenet数据集上进行了预估计,该数据集具有为大规模图像分类提取丰富且可推广的特征的权重。该提出的编码器可以具有先验知识来减少训练时间并改善对象位置识别。在解码器中设计的提议的复合上采样块(CUB)应用了2倍和4倍双线性插值,结合了一速式转置卷积,以扩展从编码器获得的低分辨率特征图,从而使网络恢复了更详细的细节。跳过连接用于增强解码器的表示能力。每个向上采样块的输出与相应的池化层串联。来自不同量表的特征融合有助于捕获本地和全球上下文信息,从而有助于更准确的深度预测。此方法利用RGB图像和深度图作为NYU DEPTH DATASET V2的训练输入。实验结果表明,基于转移学习的编码器,再加上我们提出的解码器和数据增强技术,可以使复杂的RGB图像转换为准确的深度图。系统根据深度数据范围为0.4至10 m,准确地对不同的深度范围进行了分类。通过使用渐变色尺度将不同的深度映射到相应的颜色,可以在2D图像上执行精确的深度分类。
本文考虑的问题涉及小型和微型无人机 (UAV) 的基于视觉的自动驾驶仪的设计。所提出的自动驾驶仪基于基于光流的视觉系统,用于自主定位和场景映射,以及用于飞行控制和制导的非线性控制系统。本文重点介绍使用低分辨率机载摄像头和低成本惯性测量单元 (IMU) 开发用于估计光流、飞机自运动和深度图的实时 3D 视觉算法。我们的实现基于 3 个嵌套卡尔曼滤波器 (3NKF),可实现高效且稳健的估计过程。视觉和控制算法已在四旋翼无人机上实现,并在实时飞行测试中进行了演示。实验结果表明,所提出的基于视觉的自动驾驶仪能够利用从光流中提取的信息使小型旋翼机实现完全自主飞行。
摘要将深层生成模型纳入城市形式的生成是支持城市设计过程的一种创新且有前途的方法。但是,大多数深层生成的城市形式模型基于图像表示,这些图像表示并未明确考虑城市形式元素之间的拓扑关系。旨在开发深层生成模型并考虑拓扑信息的帮助下,本文回顾了城市形式的生成,深层生成的模型/深度图生成以及建筑和城市形式的深层生成模型的最新艺术状态。基于文献综述,提出了一个基于深层生成模型的基于拓扑的城市形式生成框架。深层生成模型的街道网络生成的假设forgraphgergrotandplot/building configurationGenerationByDeepgenerativeModels/Space语法以及所提出的框架的可行性需要在未来的研究中进行验证。
深度预测是几种计算机视觉应用程序的核心,例如自动驾驶和机器人技术。通常将其作为回归任务进行表达,其中通过网络层估算深度阀。不幸的是,很少探索深度图上值的分布。因此,本文提出了一个新颖的框架,结合了对比度学习和深度预测,使我们能够更加关注深度分布,从而对整体估计过程进行改进。有意地提出了一个基于窗口的对比学习模块,该模块将特征映射划分为非重叠的窗口,并在每个窗口内构造对比损失。形成和排序正面和负对,然后在代表空间中扩大两者之间的间隙,约束深度分布以适合深度图的特征。对Kitti和NYU数据集的实验证明了我们框架的有效性。
环境阻塞(AO)是一种流行的渲染技术,它通过使较小暴露于环境光的位置(例如,角落和折痕)来增强深度感知和现实主义。在实时应用程序中,由于其高性能和良好的视觉质量,使用了依赖深度缓冲区的屏幕空间变体。但是,这些仅考虑可见的表面,导致不一致,尤其是在运动过程中。随机深度环境阻塞是一种新型的AO算法,它通过依靠随机深度图来解释遮挡的几何形状,并随机捕获每个像素的多个场景层。特此,我们有效地收集了丢失的信息,以提高常规屏幕空间近似的准确性和空间稳定性,同时保持实时性能。我们的方法很好地集成到了现有的渲染管道中,并提高了许多不同AO技术的鲁棒性,包括多视图解决方案。
在这些指示的指导下的位置。但是,有效地融合视觉和语言方式之间的信息仍然是一个重大挑战。为了实现自然语言和视觉信息的深入整合,本研究引入了多模式融合神经网络模型,该模型将视觉信息(RGB图像和深度图)与语言信息(自然语言导航指令)结合在一起。首先,我们使用更快的R-CNN和RESNET50来提取图像特征和注意机制,以进一步提取有效的信息。其次,GRU模型用于提取语言功能。最后,另一个GRU模型用于融合视觉语言功能,然后保留历史信息以将下一个动作指令提供给机器人。实验结果表明,所提出的方法有效地解决了机器人真空吸尘器的本地化和决策挑战。关键字:机器人真空吸尘器;视觉语言导航;多模式融合; Resnet50; gru;
我们描述了一种从聚合图统计数据(而不是图邻接矩阵)学习深度图生成模型 (GGM) 的新设置。匹配观察到的训练图的统计数据是学习传统 GGM(例如 BTER、Chung-Lu 和 Erdos-Renyi 模型)的主要方法。隐私研究人员已提出从图统计数据中学习作为保护隐私的一种方式。我们开发了一种架构来训练深度 GGM 以匹配统计数据,同时保留局部差异隐私保证。对 8 个数据集的实证评估表明,当两者都仅从图统计数据中学习时,我们的深度 GGM 比传统的非神经 GGM 生成更逼真的图。我们还将仅在统计数据上训练的深度 GGM 与在整个邻接矩阵上训练的最先进的深度 GGM 进行了比较。结果表明,图统计数据通常足以构建具有竞争力的深度 GGM,该深度 GGM 可生成逼真的图,同时保护本地隐私。
以图像扩散模型的出色性能为动机,越来越多的研究人员努力将这些模型扩展到基于文本的视频编辑任务。然而,当前的视频编辑任务主要遭受高调成本与有限发电量之间的困境。与图像相比,我们猜测视频需要更多的限制来保留编辑期间的时间一致性。朝着这一目标,我们提出了夏娃,一种坚固而富的零射击方法。在深度图和时间一致性约束的指导下,EVE通过负担得起的计算和时间成本得出令人满意的视频编辑结果。更重要的是,认识到没有公开可用的视频编辑数据集进行公平比较,我们构建了一个名为ZVE-50数据集的新基准。通过全面的实验,我们验证了夏娃在绩效和效率之间取得令人满意的折衷。代码,数据集和视频编辑演示可在https://github.com/alipay/alipay/ant-multi-modal- framework/blob/ain/main/prj/eve上使用。
本文的目的是研究对多视图自动镜显示的零 - 帕拉克斯设定(ZP)的动态计算,以有效地减轻具有较大差异图像的模糊3D视觉。显着性检测技术可以产生显着图,这是显着性的地形表示,指的是视觉上主导的位置。通过使用显着图,我们可以预测吸引观众的关注或感兴趣地区的原因。最近,深度学习技术已应用于显着性检测。深度学习的显着对象检测方法具有突出显示大多数显着对象的优点。借助深度图,可以计算出显着对象的空间分布。在本文中,我们将根据视觉注意力比较两种动态ZPS技术。它们是1)通过基于图形的视觉显着性(GBV)算法和2)基于卷积神经网络(CNN)基于基于图形的模型的空间分布的最大显着性计算。实验证明,两种方法都可以帮助改善自动镜显示的3D效应。此外,基于显着对象的动态ZPS技术的空间分布可以比最大的基于显着性的方法获得更好的3D性能。