Loading...
机构名称:
¥ 1.0

•具有以对象为中心的空间关注的表示形式:我们开发了新的视觉语言代表2; 3; 3允许轻松推断和向机器人提供有关其进度(“值函数”)向图像或语言目标的反馈,例如“将碗放在盘式架上”。使用离线增强学习4在人类视频上进行培训,允许在诸如厨房之类的真实环境中转移到机器人操作中。并联,我们已经建立了一个预先培训的对象无监督的代表,这些家族在许多粒度上捕获场景,允许下游演员动态组装与任务相关的最小表现,以使学习者能够更好地参加与任务相关的clutter and niffers tribles trimpers trimpers trains nibers trains trains nibers trains nraber nibers niber sribly nraiss nraby n traise n d – 9:e.g.,我们,我们可以启动。分类时间是执行复杂的任务,例如涉及分步食谱的“煮茄子”。•暂时关注决策和学习:代表的下游,决策可以受益于在任务学习和执行过程中对关键瞬间的选择性关注。在预测和计划中趋向于未来的关键事件10; 11和空间区域12减轻复合错误,改善图像目标达到任务绩效,并更好地转移给新机器人。对于实时动态任务,例如在杂乱的设置中移动对象抓住对象,我们已经成功训练了元控制器,这些元控制器动态确定计划执行13之前要做的“计划”(地平线和计算时间)要做。一个机器人可以通过首先学习如何检查是否紧绷来学习如何拧紧螺钉。适用于过去的经验,时间关注改善动态模型和政策学习4; 14-16:例如,当培训专注于机器人在其不久的将来最有可能经历的经验类型时,在增强学习中学习的动态模型会更好地工作。15。•细心的传感和探索:传感也带来了权衡:传感器调解可用机器人的所有环境信息,但需要资源成本。我们已经训练了机器人,从战略上通过主动传感和探索来感知任务相关信息17-22:我们已经展示了机器人如何通过这种互动23来自我评估他们的任务进展,以通过加强学习来改善自己(最佳纸张奖,CORL 2022);例如一旦培训了政策,就不再需要支票政策及其额外费用。通过掌握的这种效率提高了效率,也可以通过其他方式实现:我们已经证明,在训练时,机器人可以通过巧妙利用访问“特权”传感器的访问来学习从更少的感觉输入24中进行操作。我们现在正在研究机器人学习者的感官需求的基础:例如,我们已经表明,在部分可观察性下基于模型的控制的基本限制也预测了学识渊博的机器人策略的难度和样本复杂性25。

研究声明

研究声明PDF文件第1页

研究声明PDF文件第2页

研究声明PDF文件第3页

相关文件推荐

2021 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2021 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2025 年
¥3.0
2025 年
¥1.0
2024 年
¥8.0
2023 年
¥1.0
2024 年
¥1.0
2022 年
¥1.0
2024 年
¥1.0
2025 年
¥2.0
2023 年
¥2.0
2025 年
¥1.0