通过反强化学习的学徒学习___XiaoMi-AI 助力科研平台

通过反强化学习的学徒学习

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

通过反强化学习的学徒学习

¥ 1.0

热度

我们考虑在马尔可夫决策过程中学习，在马尔可夫决策过程中，我们没有明确地赋予重新功能，但是我们可以在这里遵守专家，以展示我们想学习的任务。此设置在应用程序（例如驾驶任务）中很有用，很难写下明确的奖励功能，以准确地指定应如何交易不同的desiderata。我们认为专家试图最大程度地发挥奖励功能，该奖励功能可作为已知功能的线性组合，并给出了一种学习专家所展示的任务的算法。我们的al-gorithm基于使用“逆增强学习”来试图恢复未知的奖励功能。我们表明，我们的算法终止了少数迭代，即使我们可能永远无法恢复专家的奖励功能，算法的策略也将达到与专家接近的绩效，在此，在此，相对于Expt exptt的未知奖励函数，在这里可以衡量。

添加pdf代下载 VIP点击下载文件

通过反强化学习的学徒学习

主要关键词

应用程序未知学习的展示恢复专家不同的接近的功能奖励算法任务线性组合功能的未知的试图过程马尔可夫学习明确的

通过反强化学习的学徒学习PDF文件第1页

通过反强化学习的学徒学习PDF文件第2页

通过反强化学习的学徒学习PDF文件第3页

通过反强化学习的学徒学习PDF文件第4页

通过反强化学习的学徒学习PDF文件第5页

可下载资源数量

已经购买

下载数量：1

通过反强化学习的学徒学习

通过反强化学习的学徒学习

相关文件推荐

基于强化学习

强化学习：Q学习

强化学习（强化学习）

从自动反馈中学习的强化学习...

从人类反馈（RLHF）学习的强化学习

对人类反馈学习的强化学习调查

深度强化学习

深度强化学习

通过基于模型的强化学习

强化学习的数学

强化学习的数学

强化学习：调查

强化学习的主题

强化学习的主题

持续强化学习

与安全强化学习

深度强化学习

通过基于模型的强化学习

强化学习：DQN

推进强化学习

深度强化学习

元强化学习的理论分析

强化学习基盘

基于表示的强化学习

强化学习的基础

使用强化学习

深度强化学习

强化学习简介

控制理论与强化学习

深度强化学习

XiaoMi-AI