摘要:接受大量视觉数据训练的视觉基础模型已显示出空前的推理和计划技能。将它们应用于机器人任务的关键挑战是视觉数据和动作数据之间的方式差距。我们引入了可区分的机器人渲染,这是一种方法,允许机器人体的视觉外观相对于其控制参数直接差异。我们的模型整合了运动学意识的模型和高斯人的裂开,并与任何机器人形式和自由度兼容。我们证明了它在范围中的功能和用法,包括重建了来自图像的机器人姿势和通过视觉语言模型控制机器人。定量和定性结果表明,我们可直接从像素的机器人控制提供了有效的机器人控制梯度,为Vision Foundity模型在机器人技术中的未来应用奠定了基础。交互式演示和其他可视化措施可在以下网址提供:drrobot.cs.columbia.edu/。
主要关键词