详细内容或原文请订阅后点击阅览
在没有新演示的情况下教授机器人政策:采访张家辉和张杰西
ReWiND方法,由三个阶段组成:学习奖励函数、预训练以及使用奖励函数和预训练策略在线学习新的语言指定任务。在 CoRL 2025 上发表的论文《ReWiND:语言引导奖励在没有新演示的情况下教授机器人策略》中,Jiahui Zhang、Yusen Luo、Abrar Anwar、Sumedh A. Sontakke,[...]
来源:RobohubReWiND方法,由三个阶段组成:学习奖励函数、预训练以及使用奖励函数和预训练策略在线学习新的语言指定任务。
在 CoRL 2025 上发表的论文 ReWiND: Language-Guided Rewards Teach Robot Policies without New Demonstrations 中,Jiahui Chang、Yusen Luo、Abrar Anwar、Sumedh A. Sontakke、Joseph J. Lim、Jesse Thomason、Erdem Bıyık 和 Jesse Zhang 介绍了一种仅通过语言指令学习机器人操作任务而无需每个任务演示的框架。我们请张家辉和张杰西告诉我们更多信息。
ReWiND:语言引导奖励无需新演示即可教授机器人策略 张家辉、罗宇森、Abrar Anwar、Sumedh A. Sontakke、Joseph J. Lim、Jesse Thomason、Erdem Bıyık 张杰西您论文的研究主题是什么?您想要解决什么问题?
我们的研究解决了使机器人操纵策略能够解决新颖的、以语言为条件的任务的问题,而无需为每个任务收集新的演示。我们从部署环境中的一小部分演示开始,在其上训练语言条件奖励模型,然后使用学习到的奖励函数来微调未见过的任务的策略,而不需要额外的演示。
给我们介绍一下 ReWiND——这个框架的主要特点和贡献是什么?
ReWiND 是一个简单而有效的三阶段框架,旨在使机器人策略适应新的、以语言为条件的任务,而无需收集新的演示。其主要特点和贡献是:
奖励部署环境中的函数学习