Loading...
机构名称:
¥ 2.0

强化学习(RL)对于数据科学决策至关重要,但源于样本效率低下,尤其是在具有昂贵的物理互动的现实情况下。本文引入了一个新型的人类启发框架,以提高RL算法样品效率。它通过最初将学习代理暴露于更简单的任务来实现这一目标,这些任务逐渐增加了复杂性,最终导致了主要任务。此方法不需要预训练,并且只需要学习更简单的任务才能进行一次迭代。所产生的知识可以促进各种转移学习方法,例如价值和政策转移,并增加计算复杂性。可以在不同的目标,环境和RL算法中应用,包括基于价值的,基于策略的,表格和深度RL方法。实验评估证明了该框架在提高样本效率方面的效率,尤其是在挑战主要任务中,通过简单的随机步行和更复杂的最佳控制问题证明了具有约束的最佳最佳控制问题。

以人为启发的框架加速增强学习

以人为启发的框架加速增强学习PDF文件第1页

以人为启发的框架加速增强学习PDF文件第2页

以人为启发的框架加速增强学习PDF文件第3页

以人为启发的框架加速增强学习PDF文件第4页

以人为启发的框架加速增强学习PDF文件第5页