人类可以在协作任务(例如打篮球)中快速适应新伙伴,因为他们知道任务的哪些基本技能(例如如何运球、如何投篮)可以传给新伙伴。人类还可以通过延续他们已经开发的惯例(例如举起手势传球)来快速适应与相同伙伴的类似任务,而无需从头开始学习协调。为了与人类无缝协作,AI代理也应该快速适应新伙伴和新任务。然而,目前的方法并没有试图区分任务固有的复杂性和合作伙伴使用的惯例,更普遍的是,很少有人关注利用惯例来适应新环境。在这项工作中,我们提出了一个学习框架,以原则性的方式将规则依赖表示与惯例依赖表示区分开来。我们表明,在某些假设下,我们的规则依赖表示是跨合作伙伴的最佳响应策略分布的充分统计数据。通过这种表示分离,我们的代理能够快速适应新伙伴,并以零次方式与旧伙伴协调新任务。我们通过三个复杂程度各异的协作任务实验验证了我们的方法:情境多臂老虎机、积木放置任务和纸牌游戏 Hanabi。
可以在各种环境中自主操作的人形机器人有可能帮助解决工厂中的劳动力短缺,协助老年人在家中并殖民新星球。尽管针对人形机器人的经典控制器在许多设置中都表现出了令人印象深刻的结果,但它们在概括和适应新环境方面具有挑战性。在这里,我们提出了一种完全基于学习的方法,用于实现世界人类人体机构。我们的控制器是一种因果变压器,它将本体感受观察和动作的历史记录为输入,并预测下一个动作。我们假设观察历史记录包含有关世界的有用信息,即强大的变压器模型可以在不更新权重的情况下使用其行为来调整其行为。我们在模拟中的随机环境集合上使用大型模型的大型模型学习训练了我们的模型,并将其部署到了Real-World零拍摄中。我们的控制器可以在各种室外地形上行走,对外部干扰稳健,并且可以在上下文中适应。