详细内容或原文请订阅后点击阅览
主动离线策略选择
为了使 RL 更适用于机器人等现实世界的应用,我们建议使用智能评估程序来选择要部署的策略,称为主动离线策略选择 (A-OPS)。在 A-OPS 中,我们利用预先记录的数据集并允许与真实环境进行有限的交互以提高选择质量。
来源:DeepMind - 新闻与博客研究
积极的线下政策选择
- 2022 年 5 月 6 日发布作者Yutian Chen, Ksenia Konyushkova, Tom Paine, Caglar Gulcehre, Cosmin Paduraru, Daniel J. Mankowitz, Misha Denil, Nando de Freitas
Yutian Chen、Ksenia Konyushkova、Tom Paine、Caglar Gulcehre、Cosmin Paduraru、Daniel J. Mankowitz、Misha Denil, Nando de Freitas
近年来,强化学习 (RL) 在解决现实问题方面取得了巨大进展,离线 RL 使其更加实用。我们无需与环境直接互动,而是可以现在可以从单个预先记录的数据集训练许多算法。然而,当我们评估手头的策略时,我们失去了离线 RL 在数据效率方面的实际优势。
例如,在训练机器人操纵器时,机器人资源通常有限,而离线强化学习在单个数据集上训练许多策略,与在线强化学习相比,具有巨大的数据效率优势。评估每项策略是一个昂贵的过程,需要与机器人进行数千次交互。当我们选择最佳算法、超参数和一系列训练步骤,问题很快就会变得难以解决。
为了使 RL 更适用于机器人等现实世界的应用,我们建议使用智能评估程序来选择要部署的策略,称为主动离线策略选择 (A-OPS)。在 A-OPS 中,我们利用预先记录的数据集,并允许与真实环境进行有限的交互,以提高选择质量。