Loading...
机构名称:
¥ 1.0

人类可以在协作任务(例如打篮球)中快速适应新伙伴,因为他们知道任务的哪些基本技能(例如如何运球、如何投篮)可以传给新伙伴。人类还可以通过延续他们已经开发的惯例(例如举起手势传球)来快速适应与相同伙伴的类似任务,而无需从头开始学习协调。为了与人类无缝协作,AI代理也应该快速适应新伙伴和新任务。然而,目前的方法并没有试图区分任务固有的复杂性和合作伙伴使用的惯例,更普遍的是,很少有人关注利用惯例来适应新环境。在这项工作中,我们提出了一个学习框架,以原则性的方式将规则依赖表示与惯例依赖表示区分开来。我们表明,在某些假设下,我们的规则依赖表示是跨合作伙伴的最佳响应策略分布的充分统计数据。通过这种表示分离,我们的代理能够快速适应新伙伴,并以零次方式与旧伙伴协调新任务。我们通过三个复杂程度各异的协作任务实验验证了我们的方法:情境多臂老虎机、积木放置任务和纸牌游戏 Hanabi。

在自适应人机协作中

在自适应人机协作中PDF文件第1页

在自适应人机协作中PDF文件第2页

在自适应人机协作中PDF文件第3页

在自适应人机协作中PDF文件第4页

在自适应人机协作中PDF文件第5页

相关文件推荐

2021 年
¥1.0