最近的作品表明,使用蒙版自动编码器(MAE)在以自我为中心数据集上进行视觉预测可以改善下游机器人技术任务的概括[40,29]。但是,这些方法仅在2D图像上预处理,而许多机器人应用程序需要3D场景的理解。在这项工作中,我们提出了3D-MVP,这是一种使用蒙版自动编码器进行3D多视图预处理的新方法。我们利用机器人视图变压器(RVT),该变压器(RVT)使用多视图变压器来理解3D场景并预测抓地力姿势动作。我们将RVT的多视图变压器拆分为视觉编码器和动作解码器,并在大规模3D数据集(例如Objaverse)上使用蒙版自动编码预处理其视觉编码器。我们在一组虚拟机器人操纵任务上评估了3D-MVP,并证明了基准的性能提高。我们还在真正的机器人平台上显示出令人鼓舞的结果,并具有最小的填充。我们的结果表明,3D感知预处理是提高样品效率和基于视觉机器人操纵策略的概括的有前途的方法。我们将发布3D-MVP的代码和预估计的模型,以促进未来的研究。
主要关键词