Loading...
机构名称:
¥ 1.0

尽管强化学习(RL)可以解决许多具有挑战性的顺序决策问题,但在重新任务中实现零拍摄的转移仍然是一个挑战。困难在于为术任务找到一个良好的表示形式,以便代理商了解其对以前看到的任务的方式。为了实现零拍传递,我们介绍了函数编码器,该函数编码器是一种表示算法的表示算法,该算法将函数代表为学习的非线性基函数的加权组合。通过使用函数编码器来表示奖励功能或过渡函数,代理就当前任务如何与通过相干向量代表的预先看到的任务相关联。因此,代理能够在运行时间之间实现在相关任务之间进行转移,而无需训练。,我们通过通过功能编码器任务表示形式来增强基本的RL算法来展示三个RL字段中最先进的数据效率,渐近性能和训练稳定性。

量子单向的承诺

量子单向的承诺PDF文件第1页

量子单向的承诺PDF文件第2页

量子单向的承诺PDF文件第3页

量子单向的承诺PDF文件第4页

量子单向的承诺PDF文件第5页

相关文件推荐

2023 年
¥15.0
2024 年
¥2.0
2024 年
¥4.0
2021 年
¥2.0
2020 年
¥1.0
2023 年
¥6.0
2025 年
¥1.0
2021 年
¥1.0
2023 年
¥28.0
2022 年
¥1.0
2024 年
¥2.0
2021 年
¥1.0
2020 年
¥4.0
2024 年
¥1.0
1900 年
¥1.0
2024 年
¥1.0
2024 年
¥4.0
2024 年
¥28.0
2025 年
¥1.0
2020 年
¥1.0