Loading...
机构名称:
¥ 1.0

在数据使用方面,设计有能力的元强化学习(META-RL)算法仍然是一个核心的挑战,可以解决其成功的现实世界应用程序。在本文中,我们提出了一种样品效率的元元素算法,该算法以任务指导的方式了解了手头的系统或环境的模型。与基于标准模型的Meta-RL方法相反,我们的方法利用了价值信息,以迅速捕获环境的决策部分。我们方法的关键组成部分是学习任务推理模块和系统模型的损失函数。该系统地将模型差异和价值估计值结合在一起,从而使我们的建议算法能够与现有的Meta-RL算法相比,使用较小的数据来学习策略和任务推理模块。在高维机器人控制中评估了所提出的方法,从经验上验证其在提取信息中以样本效率低的方式从观察中求解任务必不可少的信息的有效性。关键字:强化学习,元提升学习。

在元强化学习中与任务相关的损失功能

在元强化学习中与任务相关的损失功能PDF文件第1页

在元强化学习中与任务相关的损失功能PDF文件第2页

在元强化学习中与任务相关的损失功能PDF文件第3页

在元强化学习中与任务相关的损失功能PDF文件第4页

在元强化学习中与任务相关的损失功能PDF文件第5页