Loading...
机构名称:
¥ 1.0

逆增强学习(IRL)是一种模仿学习的政策方法(IL),使学习者可以在火车时间观察其行动的后果。因此,对于IRL算法,有两个看似矛盾的逃亡者:(a)防止阻塞离线方法的复合误差,例如诸如避免克隆之类的方法,并且(b)避免了强化学习的最坏情况探索复杂性(RL)。先前的工作已经能够实现(a)或(b),但不能同时实现。在我们的工作中,我们首先证明了一个负面结果表明,没有进一步的假设,没有有效的IRL算法可以避免在最坏情况下避免复杂错误。然后我们提供了一个积极的结果:在新的结构条件下,我们将奖励态度不足的政策完整性称为“奖励”,我们证明有效的IRL算法确实避免了犯错的错误,从而为我们提供了两个世界中最好的。我们还提出了一种使用亚最佳数据来进一步提高有效IRL算法的样本效率的原则方法。

有效的逆增强学习而不复合错误

有效的逆增强学习而不复合错误PDF文件第1页

有效的逆增强学习而不复合错误PDF文件第2页

有效的逆增强学习而不复合错误PDF文件第3页

有效的逆增强学习而不复合错误PDF文件第4页

有效的逆增强学习而不复合错误PDF文件第5页

相关文件推荐

2021 年
¥5.0
2025 年
¥2.0
2024 年
¥1.0
2021 年
¥1.0
2021 年
¥3.0
2023 年
¥1.0
2024 年
¥2.0
2023 年
¥2.0
1900 年
¥1.0
2024 年
¥5.0
2019 年
¥3.0
2025 年
¥1.0
2025 年
¥2.0
2024 年
¥2.0
2024 年
¥1.0
2019 年
¥5.0
2024 年
¥7.0
2024 年
¥1.0
2023 年
¥1.0