Loading...
机构名称:
¥ 1.0

摘要:最近的作品表明,使用蒙版自动编码器(MAE)在以自我为中心的数据集上进行视觉预处理可以改善下游机器人技术任务的概括[1,2]。但是,这些方法仅在2D图像上预处理,而许多机器人应用程序需要3D场景的理解。在这项工作中,我们提出了3D-MVP,这是一种使用蒙版自动编码器进行3D多视图预处理的新方法。我们利用机器人视图变压器(RVT),该变压器(RVT)使用多视图变压器来理解3D场景并预测抓地力姿势动作。我们将RVT的多视图变压器拆分为视觉编码器和动作解码器,并在大规模3D数据集(例如Objaverse)上使用蒙版自动编码预处理其视觉编码器。我们在一组虚拟机器人操纵任务上评估了3D-MVP,并证明了基准的性能提高。我们还在真正的机器人平台上显示出令人鼓舞的结果,并具有最小的填充。我们的结果表明,3D感知预处理是提高样品效率和基于视力的机器人操纵策略的有前途的方法。我们将发布代码和验证模型,以促进未来的研究。

3D-MVP:3D Multiview for Anipulation

3D-MVP:3D Multiview for AnipulationPDF文件第1页

3D-MVP:3D Multiview for AnipulationPDF文件第2页

3D-MVP:3D Multiview for AnipulationPDF文件第3页

3D-MVP:3D Multiview for AnipulationPDF文件第4页

3D-MVP:3D Multiview for AnipulationPDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥7.0
2023 年
¥5.0
2023 年
¥1.0
2025 年
¥1.0
2024 年
¥2.0
2025 年
¥1.0
2025 年
¥1.0
2023 年
¥7.0
2023 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2016 年
¥1.0
2024 年
¥2.0
2023 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2024 年
¥2.0