动手模仿学习:从行为克隆到多模态模仿学习

最突出的模仿学习方法概述,并在网格环境中进行测试照片由 Possessed Photography 在 Unsplash 上拍摄强化学习是机器学习的一个分支,它涉及通过标量信号(奖励)的引导进行学习;与监督学习相反,监督学习需要目标变量的完整标签。一个直观的例子来解释强化学习,可以用一所有两个班级的学校来解释,这两个班级有两种类型的测试。第一节课解决了测试并获得了完全正确的答案(监督学习:SL)。第二节课解决了测试并只获得了每个问题的成绩(强化学习:RL)。在第一种情况下,学生似乎更容易学习正确的答案并记住它们。在第二节课中,任务更难,因为他们只能通过反复试验来学习。然而,它们的学习更加稳健,因为它们不仅知道什么是正确的,还知道所有需要避免的错误答案。然而,设计准确的 RL 奖励信号(等级)可能是一项艰巨的任务,尤其是对于现实世界的应用而言。例如,人类驾驶员知道如何驾驶,但无法为“正确的驾驶”技能设置奖励,烹饪或绘画也是如此。这就产生了对模仿学习方法 (IL) 的需求。IL 是 RL 的一个新分支,它关注从单纯的专家轨迹中学习,而无需知道奖励。IL 的主要应用领域是机器人和自动驾驶领域。在以下

来源:None

动手模仿学习:从克隆到多模式模仿学习

在网格环境测试时模仿学习中最突出的方法的概述

拥有摄影 Unplash

强化学习是机器学习的一个分支,与标量信号的指导(奖励)有关;与有监督的学习相反,该学习需要目标变量的完整标签。

可以用两种课程连续重复两种类型的学校来给出一个直观的示例来解释强化学习。头等舱解决测试并获得完整的正确答案(有监督的学习:SL)。第二类解决了测试,并且仅获得每个问题的成绩(增强学习:RL)。在第一种情况下,学生似乎更容易学习正确的答案并记住它们。在第二类中,任务更难,因为它们只能通过反复试验来学习。但是,他们的学习将更加强大,因为他们不仅知道什么是对的,而且还知道所有错误的答案。

为了用RL有效学习,应该设计准确的奖励信号(等级),这被认为是一项艰巨的任务,尤其是对于现实世界应用程序。例如,人类专家司机知道如何驾驶,但不能为“正确的驾驶”技能设定奖励,这是烹饪或绘画的同样的东西。这创造了对模仿学习方法(IL)的需求。 IL是RL的一个新分支,关注仅仅从专家轨迹中学习,而不知道奖励。 IL的主要应用领域是机器人技术和自动驾驶领域。

在以下内容中,我们将探索文献中最著名的IL方法,这是由他们的提议时间从旧到新的,如下图所示。

IL方法的时间表 github repo 示例环境 本文中使用的环境表示为15x15网格。环境状态如下所示: 代理:红色 a r s a
IL方法的时间表

github repo

示例环境

  • 本文中使用的环境表示为15x15网格。环境状态如下所示:
  • 代理:红色 a r sa