尽管强化学习(RL)可以解决许多具有挑战性的顺序决策问题,但在重新任务中实现零拍摄的转移仍然是一个挑战。困难在于为术任务找到一个良好的表示形式,以便代理商了解其对以前看到的任务的方式。为了实现零拍传递,我们介绍了函数编码器,该函数编码器是一种表示算法的表示算法,该算法将函数代表为学习的非线性基函数的加权组合。通过使用函数编码器来表示奖励功能或过渡函数,代理就当前任务如何与通过相干向量代表的预先看到的任务相关联。因此,代理能够在运行时间之间实现在相关任务之间进行转移,而无需训练。,我们通过通过功能编码器任务表示形式来增强基本的RL算法来展示三个RL字段中最先进的数据效率,渐近性能和训练稳定性。
主要关键词