摘要 - 对象姿势估计是一项核心感知任务,可以使对象操纵和场景理解。允许快速推理的广泛可用,廉价和高分辨率的RGB传感器和CNN使单眼方法特别适合机器人应用。我们观察到,以前的调查是针对不同方式,单视图设置以及考虑多种应用程序的数据集和指标的建立最新技术的调查。但是,我们认为这些作品的广泛范围阻碍了对单眼方法的开放挑战的识别,并妨碍了对其在机器人技术中应用的有希望的未来挑战的推论。通过对机器人技术和计算机愿景的最新出版物提供统一的看法,我们发现遮挡处理,姿势表示以及正式化和改善类别级别的姿势估计仍然是与机器人技术高度相关的基本挑战。此外,为了进一步改善机器人性能,大物体集,新颖的对象,分裂材料和不确定性估计是中心的,在很大程度上尚未解决开放挑战。为了解决这些问题,需要改进算法的本体论推理,可变形性处理,场景级别的推理,现实数据集以及算法的生态足迹。
从2D图像中估算深度在各种应用中至关重要,例如对象识别,场景重建和导航至关重要。它在增强现实,图像重新关注和细分方面具有显着优势。在本文中,我们根据传输学习编码器和高级解码器结构提出了一个优化的U-NET网络,以估算单个2D图像的深度。编码器– decoder架构是从Resnet152v2构建的,作为编码器和改进的基于U-NET的解码器,以实现准确的深度预测。引入的RESNET152V2网络已在广泛的Imagenet数据集上进行了预估计,该数据集具有为大规模图像分类提取丰富且可推广的特征的权重。该提出的编码器可以具有先验知识来减少训练时间并改善对象位置识别。在解码器中设计的提议的复合上采样块(CUB)应用了2倍和4倍双线性插值,结合了一速式转置卷积,以扩展从编码器获得的低分辨率特征图,从而使网络恢复了更详细的细节。跳过连接用于增强解码器的表示能力。每个向上采样块的输出与相应的池化层串联。来自不同量表的特征融合有助于捕获本地和全球上下文信息,从而有助于更准确的深度预测。此方法利用RGB图像和深度图作为NYU DEPTH DATASET V2的训练输入。实验结果表明,基于转移学习的编码器,再加上我们提出的解码器和数据增强技术,可以使复杂的RGB图像转换为准确的深度图。系统根据深度数据范围为0.4至10 m,准确地对不同的深度范围进行了分类。通过使用渐变色尺度将不同的深度映射到相应的颜色,可以在2D图像上执行精确的深度分类。
只要没有出色的情况,就可以在互联网或其未来的替代品上提供此文档,或者将来的替代品可用。访问该文档意味着每个人都可以阅读,下载,打印单个副本以供个人使用,并将其不变用于非商业研究和教学。以后的版权转移无法取消此情况。任何对文档的任何其他用途都需要作者的同意。为了确保真实性,安全性和可及性,有技术和行政性质的解决方案。作者的非营利权包括被提及为作者的权利,以至于以上描述的方式使用文档时需要以这种形式或以这种形式或以这种形式更改或呈现的文档进行保护,以使作者的文学或艺术或自我自我推荐。有关LinköpingUniversity Electronic Press的更多信息,请参见出版商的网站http://www.ep.liu.se/。
摘要:移动自主机器人需要准确的地图来实时导航和做出明智的决定。猛击(同时定位和映射)技术允许机器人在移动时构建地图。但是,在复杂或动态的环境中,SLAM可能具有挑战性。本研究提出了一个名为Scramble的移动自主机器人,该机器人根据两个传感器的数据融合使用SLAM:Rplidar A1M8 LIDAR和RGB摄像机。如何使用数据融合来提高映射,轨迹计划和移动自动机器人障碍物检测的准确性?在本文中,我们表明,视觉和深度数据的融合显着提高了映射,轨迹计划和移动自主机器人的障碍物检测的准确性。这项研究通过引入基于数据融合的SLAM方法来帮助自主机器人导航的发展。移动自主机器人用于各种应用程序,包括包装交付,清洁和检查。开发更健壮,更准确的SLAM算法对于在具有挑战性的环境中使用这些机器人至关重要。
毫无疑问,高保真3D头发对于实现现实,艺术表达和沉浸在计算机图形中至关重要。现有的3D头发建模方法取得了令人印象深刻的性能,但实现高质量头发重建的挑战仍然存在:它们要么重新确定严格的捕获条件,因此很难实现实践应用,或者很大程度上依赖于学到的先前数据,并在图像中遵守细节细节。为了应对这些挑战,我们提出了Monohair,这是一个通用框架,以从单元视频中实现高保真的头发重建,而对环境没有具体要求。我们的方法将头发建模过程分为两个主要阶段:精确的外部重建和内部结构推断。使用基于补丁的多视图优化(PMVO)精心制作外部。此方法从策略性地收集并集成了从多个视图(独立于先前数据)产生高保真外部3D线图的头发插入。此地图
单眼3D对象检测通常采用直接或静脉标签的监督。最近,蒸馏监督将空间知识从激光雷达或立体声教师网络转移到单眼探测器,但仍保留域间隙。To mitigate this issue and pursue ade- quate label manipulation, we exploit F oreground D epth map for feature-supervised monocular 3D object detection named FD3D , which develops the high-quality instructive interme- diate features to conduct desirable auxiliary feature supervi- sion with only the original image and annotation foreground object-wise depth map (AFOD) as input.此外,我们基于图像功能和预处理的AFOD之间的足够相互关系来建立我们的具有启发性的功能生成网络,以构建具有启发性的空间特征,在此中,AFOD仅将注意力集中在前景上,以在检测任务中获得更清晰的指导。更重要的是,我们应用了从像素和分布级别的辅助功能监督,以实现全面的空间知识指导。广泛的实验表明,我们的方法在Kitti和Nuscenes数据集上都实现了最先进的性能,没有外部数据,也没有额外的推理计算成本。我们还进行实验以揭示设计的有效性。
本文旨在设计具有更好概括能力的单眼深度估计模式。为此,我们进行了定量分析,并发现了两个重要的见解。首先,在长尾分类问题中发现的模拟相关现象也存在于单眼深度估计中,这表明训练数据中深度分布的不平衡分布可能是导致泛化能力有限的原因。第二,深度值的不平衡和长尾分布范围超出了数据集量表,并且在每个单独的图像中也表现出来,进一步表达了单眼深度估计的挑战。通过上述发现,我们提出了距离感知的多专家(DME)深度估计模型。与先前的方法不同地处理不同深度范围的方法不同,DME采用了分歧和诱使哲学,每个专家都负责对特定深度范围内的区域进行深度估计。因此,每个专家看到的深度分布更加统一,并且可以更容易预测。一个像素级路由模块的进一步设计和学会了,以将所有专家的预测缝合到最终的深度图中。实验表明,DME在NYU-DEPTH V2和KITTI上都达到了最先进的性能,并且还可以在看不见的数据集上提供有利的零拍概括能力。
摘要人类机器人合作(HRC)在先进的生产系统中越来越重要,例如在行业和农业中使用的系统。这种类型的协作可以通过减少人类的身体压力来促进生产率的提高,从而导致伤害减少并改善士气。HRC的一个关键方面是机器人安全遵循特定的人类操作员的能力。为了应对这一挑战,提出了一种新的方法,该方法采用单眼视力和超宽带(UWB)收发器来确定人类目标相对于机器人的相对位置。UWB收发器能够用UWB收发器跟踪人类,但具有显着的角度误差。为了减少此错误,使用深度学习对象检测的单眼摄像机来检测人类。使用基于直方图的滤波器结合了两个传感器的输出,可以通过传感器融合来减少角度误差。此过滤器项目并将两个源的测量值与2D网格相交。通过结合UWB和单眼视觉,与单独的UWB定位相比,角度误差的降低了66.67%。这种方法表明,以0.21 m/s的平均速度跟踪人行走时,平均处理时间为0.0183,平均定位误差为0.14米。这种新颖的算法有望实现有效和安全的人类机器人合作,为机器人技术提供了宝贵的贡献。
摘要 - 随着自动驾驶和机器人导航的快速进步,对能够估计度量(绝对)深度的终身学习模型的需求不断增长。终身学习方法可能在模型培训,数据存储和收集方面可以节省大量成本。但是,RGB图像和深度图的质量是传感器的,现实世界中的深度图具有特定的特定特征,从而导致深度范围的变化。这些挑战将现有方法限制为具有较小的域差距和相对深度图估计的终身学习。为了促进终生的度量深度学习,我们确定了需要注意的三个至关重要的技术挑战:i)开发一个能够通过尺度感知的深度学习来解决深度尺度变化的模型,ii)设计有效的学习策略来处理明显的域间隙,iii III)为在实践应用中创建一个自动化的解决方案。基于上述考虑因素,在本文中,我们提出了一个轻巧的多头框架,有效地解决了深度尺度的不平衡,ii)一种不确定性的意识到的终身学习解决方案,可熟练处理重要的域域,iii)一种在线域特异性预测方法,以实现实时的预测方法。通过广泛的数值研究,我们表明该方法可以实现良好的效率,稳定性和可塑性,从而使基准测试幅度约为15%。该代码可在https://github.com/ freeformrobotics/lifelong-monodepth上找到。
摘要 在自然环境中,感觉处理和运动输出紧密相关,这反映在许多大脑区域同时包含感觉和运动信号的事实中。然而,标准的还原论范式将感觉决策与其自然的运动后果分离开来,而头部固定会阻止自我运动的自然感觉后果。特别是,在环境中的运动提供了许多深度线索,这些线索超出了立体视觉的范围,但人们对这些线索知之甚少。为了研究自然任务中视觉处理和运动输出的整合,我们研究了自由移动小鼠的距离估计。我们发现小鼠使用视觉准确地跳过可变间隙,从而将视觉计算直接耦合到其相应的行为运动输出。单眼眼睑缝合不影响间隙跳跃成功,因此小鼠可以使用不依赖于双眼视差和立体视觉的线索。在单眼条件下,小鼠改变了头部位置并进行了更多的垂直头部运动,这与从使用立体视觉转向其他单眼线索(如运动或位置视差)的转变一致。最后,当光纤分别位于双眼或单眼 V1 区时,对初级视觉皮层的光遗传抑制会损害双眼和单眼条件下的任务表现。总之,这些结果表明小鼠可以使用单眼线索,依靠视觉皮层来准确判断距离。此外,这种行为范式为研究神经回路如何将感觉信息转化为行为运动输出奠定了基础。