约束抽样强化学习
机构名称:
¥ 1.0

在线强化学习 (RL) 算法通常难以部署在复杂的面向人类的应用程序中,因为它们可能学习缓慢并且早期性能较差。为了解决这个问题,我们引入了一种实用的算法,用于结合人类洞察力来加速学习。我们的算法,约束抽样强化学习 (CSRL),将先前的领域知识作为 RL 策略的约束/限制。它采用多种潜在的策略约束来保持对单个约束错误指定的鲁棒性,同时利用有用的约束来快速学习。给定一个基础 RL 学习算法(例如 UCRL、DQN、Rainbow),我们提出了一种具有消除方案的上限置信度,该方案利用约束与其观察到的性能之间的关系来自适应地在它们之间切换。我们使用 DQN 型算法和 UCRL 作为基础算法来实例化我们的算法,并在四种环境中评估我们的算法,包括三个基于真实数据的模拟器:推荐、教育活动排序和 HIV 治疗排序。在所有情况下,CSRL 都能比基线更快地学习到好的策略。

约束抽样强化学习

约束抽样强化学习PDF文件第1页

约束抽样强化学习PDF文件第2页

约束抽样强化学习PDF文件第3页

约束抽样强化学习PDF文件第4页

约束抽样强化学习PDF文件第5页

相关文件推荐

在线虚拟学习 - ERIC
2012 年
¥34.0
自我学习报告
2018 年
¥32.0
自我学习报告
2020 年
¥32.0
学习指南 - Itc.nl
2022 年
¥42.0