Loading...
机构名称:
¥ 2.0

大型模型已显示出对视觉和语言中复杂问题的强烈开放概括,但是它们在机器人技术中的部署相对较难。这一挑战主要源于缺乏可扩展的机器人训练数据,因为这需要昂贵的机器人收集。对于可扩展的培训,这些模型必须显示跨域的大量传输,以利用廉价可用的“偏离”数据,例如视频,手绘草图或模拟数据。在这项工作中,我们认为,层次视觉语言 - 行动模式可以比标准的单片视觉语言行动模型更有效地在域上传输行为。尤其是我们研究了一类Hier-Archical Vision-Language-Action模型,其中高级视觉语言模型(VLMS)在相对便宜的数据上训练,以产生具有语义意义的中间预测,例如2D路径,表明所需的行为。这些预先指定的2D路径是3D感知且能够精确操作的低级控制策略的指导。在这项工作中,我们表明将预先字典分开为语义高级预测,而3D感知的低级预测可以使这种层次结构的VLA策略可以跨越重要的域间隙转移,从模拟到现实世界或跨场景,具有巨大变化的视觉效果。这样做可以使用廉价,丰富的数据源,除了遥控的机上数据,从而实现了广泛的语义和视觉通用。我们证明了如何通过模拟和现实世界中的实验进行语义,视觉和几何概括来实现语义,视觉和几何概括的机器人操作,以实现机器人操作。

仓鼠:...

仓鼠:...PDF文件第1页

仓鼠:...PDF文件第2页

仓鼠:...PDF文件第3页

仓鼠:...PDF文件第4页

仓鼠:...PDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥1.0
2018 年

...

¥1.0
2025 年

...

¥1.0
2023 年

...

¥1.0
2024 年
¥1.0
2025 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2023 年
¥2.0
2024 年
¥18.0
2024 年
¥1.0
2024 年

...

¥3.0
2024 年
¥1.0
2024 年
¥1.0
2025 年

...

¥1.0
2025 年
¥1.0
2024 年

...

¥2.0
1900 年
¥1.0
1900 年
¥1.0
2024 年

...

¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥3.0
2024 年

...

¥3.0
2025 年
¥1.0
2024 年

...

¥1.0
2024 年
¥1.0