UMED关键词检索结果

在没有新演示的情况下教授机器人政策:采访张家辉和张杰西

Teaching robot policies without new demonstrations: interview with Jiahui Zhang and Jesse Zhang

ReWiND方法,由三个阶段组成:学习奖励函数、预训练以及使用奖励函数和预训练策略在线学习新的语言指定任务。在 CoRL 2025 上发表的论文《ReWiND:语言引导奖励在没有新演示的情况下教授机器人策略》中,Jiahui Zhang、Yusen Luo、Abrar Anwar、Sumedh A. Sontakke,[...]