Loading...
机构名称:
¥ 4.0

视觉语言模型(VLM)最近被利用以生成机器人动作,形成视觉语言动作(VLA)模型。然而,直接适应验证的VLM来进行机器人控制仍然具有挑战性,尤其是当受到有限数量的机器人示范限制时。在这项工作中,我们介绍了llara:l arge l arguage and robotics a ssistant,该框架将机器人动作策略作为视觉文本对话制定,并通过视觉视觉视觉中的视觉音调调谐到计算机视觉中的成功激励到有效的VLA中,从而有效地将VLM转移到强大的VLA中。首先,我们提出了一条自动化管道,以生成来自外部行为克隆数据集的机器人的对话风格的指令调整数据,将机器人动作与图像像素辅助材料对齐。此外,我们通过定义六个辅助任务以自我监督的方式增强了此数据集,而无需任何其他操作注释。我们表明,使用有限数量的此类数据集进行的VLM FINETUNENET可以为机器人控制产生有意义的行动决策。通过跨模拟和现实世界的实验,我们证明了Llara在保留大语言模型的概括能力的同时,实现了状态的性能。代码,数据集和预处理的模型可在https://github.com/lostxine/llara上找到。

llara:增压机器人学习数据

llara:增压机器人学习数据PDF文件第1页

llara:增压机器人学习数据PDF文件第2页

llara:增压机器人学习数据PDF文件第3页

llara:增压机器人学习数据PDF文件第4页

llara:增压机器人学习数据PDF文件第5页

相关文件推荐

2023 年
¥1.0