尽管强化学习(RL)可以解决许多具有挑战性的顺序决策问题,但在重新任务中实现零拍摄的转移仍然是一个挑战。困难在于为术任务找到一个良好的表示形式,以便代理商了解其对以前看到的任务的方式。为了实现零拍传递,我们介绍了函数编码器,该函数编码器是一种表示算法的表示算法,该算法将函数代表为学习的非线性基函数的加权组合。通过使用函数编码器来表示奖励功能或过渡函数,代理就当前任务如何与通过相干向量代表的预先看到的任务相关联。因此,代理能够在运行时间之间实现在相关任务之间进行转移,而无需训练。,我们通过通过功能编码器任务表示形式来增强基本的RL算法来展示三个RL字段中最先进的数据效率,渐近性能和训练稳定性。
在线工具有意义的活动,并表示希望拥有在线和面对面选项的愿望。一些参与者描述了在限制期间参加各种在线社交团体活动的参与,例如参加“通过Zoom参加Zumba课程”(P6)。随着限制的逐渐缓解,其中一些活动仍在网上继续进行。p14说:“我们曾经每月进行一次讲座,他们再也没有回到面对面。从那以后一直在线。”许多参与者享受这些在线机会提供的便利,尤其是在特殊情况下正如P4所说:“下雨或10度时,我不可能在公园里做瑜伽”。P5说:“这对人有帮助