基础模型最近在NLP [1、21、8]和CV [7]等不同领域取得了巨大成功。在机器人技术领域,机器人基础模型(RFMS)[9]可以帮助机器人做出更好的决策,从高级任务计划到低级行动控制,为学习真正的通才机器人提供了有希望的方法。在本文中,我们专注于一种特定类型的RFM,该RFM基于图像观察和语言指令直接输出动作命令,在先前的工作中,这也称为视觉语言行动(VLA)模型[4、5、18、24、14]。通过对从不同场景和不同机器人收集的大规模现实世界机器人数据进行培训,这些RFM的性能和概括性更高,比在任务狭窄分布的传统机器人控制器上取得了更好的概括。
主要关键词