分而治之关键词检索结果

没有 TD 学习的 RL

RL without TD learning

在这篇文章中,我将介绍一种基于“另类”范式的强化学习 (RL) 算法:分而治之。与传统方法不同,该算法不是基于时间差(TD)学习(具有可扩展性...