[1] Andreas Claesson,Anders B̈Ackman,Mattias Ringh,Leif Svensson,Per Nordberg,Therese dj̈arv和Jacob Hollenberg。是时候使用无人机交付自动外部除颤器来模拟院外心脏骤停与紧急医疗服务。第317卷,第2332–2334页,2017年6月6日。[2] DJI。DJI无人机救援地图。site = https://enterprise.dji.com/drone-rescue-map,组织= DJI,2022。[3]基于激光雷达的自动驾驶汽车的语义感知。[4] Alberto Broggi。仔细观察LiDAR和Sterovision。site = https://www.ambarella.com/blog/a-closer- look-at-lidar-and-stereovision/hangrys = Ambrella International LP,2020年。[5] Zhangyi Chen,小李,Long Wang,Yueyang Shi,Zhipeng Sun和Wei Sun。基于改进的telecerated机器人的Yolov5的对象检测和定位方法。第12卷,2022年。
我们提出了一种类别级 6D 物体姿势和大小估计的新方法。为了解决类内形状变化,我们学习了规范形状空间 (CASS),它是特定物体类别的大量实例的统一表示。具体而言,CASS 被建模为具有规范化姿势的规范 3D 形状的深度生成模型的潜在空间。我们训练变分自动编码器 (VAE) 以从 RGBD 图像在规范空间中生成 3D 点云。VAE 以跨类别的方式进行训练,利用公开可用的大型 3D 形状存储库。由于 3D 点云是以规范化姿势(具有实际大小)生成的,因此 VAE 的编码器学习视图分解的 RGBD 嵌入。它将任意视图中的 RGBD 图像映射到与姿势无关的 3D 形状表示。然后,通过将物体姿势与使用单独的深度神经网络提取的输入 RGBD 的姿势相关特征进行对比来估计物体姿势。我们将 CASS 的学习和姿势和尺寸估计集成到端到端可训练网络中,实现了最先进的性能。
摘要。稀疏的RGBD场景完成是一项具有挑战性的任务,尤其是在整个场景中考虑一致的纹理和几何形状时。与依赖人类设计的文本提示或预定义相机轨迹的现有解决方案不同,我们建议GenRC(一种无自动训练的管道)来完成带有高保真纹理的房间尺度3D网格。为了实现这一目标,我们首先将稀疏的RGBD图像投射到高度不完整的3D网格上。我们利用提出的电子扩散来生成视图一致的全景RGBD图像,而不是填充空白的新视图来填补空白,以确保全局几何形状和外观一致性。此外,我们通过文本内版本维护输入输出场景风格的一致性,以替换人类设计的文本提示。为了弥合数据集之间的域间隙,电子扩散利用了在大规模数据集中训练的模型,以生成各种外观。genRC在Scan-Net和Arkitscenes数据集上的大多数外观和几何指标下的最新方法都优于ART方法,即使没有在这些数据集上训练GENRC,也没有使用预定义的摄像机轨迹。项目页面:https://minfenli.github.io/genrc/
图2。我们的RoboExp系统的概述。我们介绍了由四个模块组成的RoboExp系统的全面概述。(a)我们的感知模块将RGBD图像作为输入,并产生相应的2D边界框,掩码,对象标签和关联的语义特征作为输出。(b)内存模块无缝将2D信息集成到3D空间中,从而实现了更一致的3D实例分割。此外,它通过合并实例构建了我们ACSG的高级图。(c)我们的决策模块是提议者和验证者的双重角色。提案者建议各种行动,例如开门和抽屉,而验证者评估每个动作的可行性,考虑到阻塞等因素。(d)动作模块执行提出的操作,使机器人组能够与环境有效相互作用。
摘要 - 从人类示威中学习在机器人操纵中取得了显着的成就。但是,挑战仍然是开发一种与人类的能力和数据效率相匹配的机器人系统,尤其是在复杂的,非结构化的现实世界情景中。我们提出了一个处理RGBD视频的系统,以将人类的动作转化为机器人的原语,并使用接地段的任何东西来识别与任务相关的对象的关键姿势。然后,我们考虑了运动学和碰撞几何形状的人类机器人差异,以解决机器人复制人类行为方面的挑战。为了测试系统的有效性,我们进行了专注于手动洗碗的实验。在模型厨房中记录了单个人类的示例,该系统在每个步骤中取得了50-100%的成功,并且在家庭厨房中使用不同对象的整个任务获得了40%的成功率。视频可从https://robot-dishwashing.github.io获得。索引术语 - 动作学习,操纵,从演示中学习
抽象的视觉同时定位和映射(VSLAM)为室内和室外导航发现了应用程序,这些应用程序通常会使其经常受到视觉复杂性的影响,尤其是镜像的反射。镜像存在的影响(时间可见及其在框架中的平均大小)的影响会影响定位和映射性能,而系统使用的直接技术预计会表现较差。因此,收集了记录在镜像环境中的图像序列的数据集Mirrenv,并用于评估现有代表性方法的性能。RGBD ORB-SLAM3和BUNDLEDEFUSION似乎随着镜像持续时间的增加显示了绝对轨迹误差的中等降解,而其余结果并未显示出显着降低的定位性能。事实证明,生成的网格图非常不准确,重建中的真实和虚拟反射碰撞。讨论了镜子环境中可能的错误和鲁棒性来源,概述了未来的方向,以验证和改善在平面镜的存在下VSLAM性能。Mirrenv数据集可从https://doi.org/10.17035/d.2023.0292477898获得。
人类表现出非常出色的技能,可以在不同形状,姿势和外观的对象中传递操纵能力,这是一种植根于他们对不同实例之间语义对应关系的理解的能力。为了为机器人提供类似的高级理解,我们提出了Sparsedff,这是一种新颖的DFF,用于3D场景,利用大型2D视觉模型从稀疏的RGBD图像中提取语义特征,该域与固定设置的许多任务相关,尽管它与许多任务相关。sparsedff生成视图一致的3D DFF s,通过将图像特征映射到3D点云,从而有效地对灵活性操作进行了有效的灵感操作学习。Sparsedff的中心是一个特征改进网络,通过视图和特征连续性的点式缩写机制之间的对比损失进行了优化。这有助于最小化特征差异W.R.T.最终效应参数,桥接演示和目标操作。在现实世界中用灵巧的手验证,Sparsedff证明有效地有效地操纵刚性和可变形的对象,表明对象和场景变化之间具有显着的概括能力。
摘要——空间非合作物体的主动视觉跟踪对于未来智能航天器实现空间碎片清除、小行星探索、自主交会对接具有重要意义。然而,现有的工作通常将此任务视为不同的子问题(例如图像预处理、特征提取和匹配、位置和姿态估计、控制律设计)并单独优化每个模块,这些模块是琐碎且次优的。为此,我们提出了一种基于 DQN 算法的端到端主动视觉跟踪方法,称为 DRLAVT。它可以仅依靠彩色或 RGBD 图像来引导追逐航天器接近任意空间非合作目标,其性能明显优于采用最先进的 2D 单目跟踪器 SiamRPN 的基于位置的视觉伺服基线算法。使用不同的网络架构、不同的扰动和多个目标进行的大量实验证明了 DRLAVT 的先进性和鲁棒性。此外,我们进一步证明我们的方法确实通过数百次反复试验利用深度强化学习学习到了目标的运动模式。
摘要 - 尽管最近在6D对象构成了机器人抓握的方法方面取得了进展,但在现有数据集中这些甲基多种多样的能力与现实世界中的握把和移动操作任务之间的功能之间存在很大的表现差距,尤其是当机器人完全依靠其单声学egocentric领域(Fov)。现有的现实世界数据集主要关注桌面抓地力方案,其中机器人臂放在固定位置,并且对象集中在固定外部相机的FOV中。评估此类数据集上的性能可能无法准确反映厨房环境中日常抓握和移动操作任务所面临的挑战,例如从较高的架子,水槽,洗碗机,烤箱,冰箱,冰箱或微波炉中检索物体。为了解决这一差距,我们提出了厨房,这是一种专门估算厨房环境中各个位置的物体的6D姿势的新颖基准测试。为此,我们录制了一个全面的数据集,该数据集包含约205K现实世界的RGBD图像,用于在两个不同的厨房中捕获的111个厨房对象,利用具有以自我为中心的人的人形机器人。随后,我们开发了一个半自动的注释管道,以简化此类数据集的标签过程,从而产生2D对象标签,2D对象分割掩码和6D对象,并以最少的人为努力构成。基准,数据集和注释管道可在https://kitchen-dataset.github.io/kitchen上公开获得。
已经取得了显着的迈进,该领域显然是由于缺乏高质量数据集而导致的。早期数据集(如Pigraphs [39]和Prox [16])启动了探索,但受到可扩展性和数据质量的约束。MOCAP数据集[14,30]使用Vicon等复杂的设备优先考虑高质量的人类运动限制。但是,他们通常缺乏捕获多样化和沉浸式的HSI。通过RGBD视频录制的可扩展数据集提供了更广泛的实用程序,但受到人类姿势和对象跟踪质量较低的阻碍。合成数据集的出现[1,3,4,55]提供了成本效率和适应性,但无法封装完整的现实HSI频谱,尤其是在捕获动态3D触点和对象跟踪时。为了应对这些挑战,这项工作首先引入了trumans(t rack hum a um a u u u u u u u u u u u u u u a ctio n s in s cenes)数据集。Trumans成为最广泛的运动捕获HSI数据集,涵盖了15个小时以上15个小时的室内场景中的各种相互作用。它捕获了全身的人类动作和部分级别的对象动力学,重点是接触的现实主义。通过将物理环境复制到准确的虚拟模型中,可以进一步增强此数据集。外观和运动的广泛增强都应用于人类和物体,以确保相互作用的高度有限。接下来,我们设计了一个计算模型,通过将场景和动作作为条件同时采取行动来应对上述挑战。我们对杜鲁士数据集和运动合成方法进行了全面的交叉评估。特别是,我们的模型采用自回归的条件扩散,场景和动作嵌入作为征用输入,能够产生任意长度的运动。为了整合场景上下文,我们通过在本地化的基础上查询全局场景的占用来开发有效的场景感知者,这在导航杂乱的场景时表现出了3D感知的碰撞避免的强大效率。为了将框架的动作标签合并为条件,我们将时间特征集成到动作片段中,使模型在粘附在给定的动作标签时随时接受指令。场景和动作条件的这种双重整合增强了我们方法的可控性,为在3D场景中合成合理的长期运动提供了细微的界面。将trumans与现有人物进行比较,我们证明了杜鲁士人明显提高了最先进的方法的性能。此外,我们的方法在定性和定量上进行了评估,超过了现有的运动综合方法,其质量和零击性能力在看不见的3D场景上,非常接近原始运动捕获数据的质量。除了运动合成之外,杜鲁士人已经针对人类的姿势和接触估计任务进行了基准测试,证明了其多功能性并将其确立为一系列未来的研究努力的宝贵资产。