3D-MVP：机器人操纵的3D多视图___XiaoMi-AI 助力科研平台

3D-MVP：机器人操纵的3D多视图

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

3D-MVP：机器人操纵的3D多视图

¥ 1.0

热度

最近的作品表明，使用蒙版自动编码器（MAE）在以自我为中心数据集上进行视觉预测可以改善下游机器人技术任务的概括[40，29]。但是，这些方法仅在2D图像上预处理，而许多机器人应用程序需要3D场景的理解。在这项工作中，我们提出了3D-MVP，这是一种使用蒙版自动编码器进行3D多视图预处理的新方法。我们利用机器人视图变压器（RVT），该变压器（RVT）使用多视图变压器来理解3D场景并预测抓地力姿势动作。我们将RVT的多视图变压器拆分为视觉编码器和动作解码器，并在大规模3D数据集（例如Objaverse）上使用蒙版自动编码预处理其视觉编码器。我们在一组虚拟机器人操纵任务上评估了3D-MVP，并证明了基准的性能提高。我们还在真正的机器人平台上显示出令人鼓舞的结果，并具有最小的填充。我们的结果表明，3D感知预处理是提高样品效率和基于视觉机器人操纵策略的概括的有前途的方法。我们将发布3D-MVP的代码和预估计的模型，以促进未来的研究。

添加pdf代下载 VIP点击下载文件