建立深厚的强化学习(RL)特工,这些特工找到了很少的样本政策,事实证明,众所周知。为了达到样本效率,最近的工作探索了为每个新样本提供大量级别的神经网络的更新。虽然如此高的更新对数据(UTD)比率表现出强烈的经验表现,但它们也引入了训练过程的不稳定。先前的方法需要依靠定期神经网络参数重置以解决这种不稳定,但是在许多现实世界中,重新启动训练过程是不可行的,并且需要调整重置间隔。在本文中,我们关注稳定训练的核心困难之一:学到的价值功能无法概括到未观察到的上利方灯。我们通过通过从学习的世界模型中产生的少量数据来直接扩大了非政策RL训练过程来直接减轻此问题。我们的方法,型号的时间差异学习数据(MAD-TD)使用少量生成的数据来稳定高UTD训练,并在DeepMind Contolol Suite中最具挑战性的任务上实现竞争性能。我们的实验进一步强调了采用良好模型生成数据的重要性,MAD-TD对抗价值高估的能力以及其实际稳定性提高以继续学习。
主要关键词