通过Q加权变化策略优化的基于扩散的增强学习__

通过Q加权变化策略优化的基于扩散的增强学习

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

通过Q加权变化策略优化的基于扩散的增强学习

¥ 1.0

热度

扩散模型在增强学习（RL）方面具有广泛的关注（RL），以表现出强大的表现力和多模式。已经证实，利用扩散策略可以通过克服非峰政策（例如高斯政策）的局限性来显着改善RL算法在连续控制任务中的性能。此外，扩散策略的多模式性还表明了为代理提供增强的勘探能力的潜力。但是，现有的作品主要集中于在离线RL中应用扩散政策，而将其纳入在线RL中的研究较少。由于“良好”样本（动作）不可用，因此无法直接应用于在线RL中的扩散模型的训练目标，称为变异下限。为了将扩散模型与在线RL协调，我们提出了一种基于无模型扩散的新型在线RL算法，称为Q-PRIATION策略优化（QVPO）。具体来说，我们在实践中介绍了Q加权变分损失及其近似实施。值得注意的是，这种损失被证明是政策目标的紧密下限。为了进一步增强扩散策略的勘探能力，我们设计了一个特殊的熵正规化项。与高斯政策不同，扩散政策中的对数可能是无法访问的。因此，此熵项是不平凡的。此外，为了减少扩散政策的巨大差异，我们还通过行动选择制定了有效的行为政策。这可以进一步提高在线交互期间的样本效率。因此，QVPO算法利用了扩散策略的探索能力和多模式，从而阻止了RL代理融合到亚最佳策略。为了验证QVPO的有效性，我们对Mujoco连续控制基准进行了综合实验。最终结果表明，QVPO在累积奖励和样本效率方面都可以达到最先进的表现。我们的官方实施在https://github.com/wadx2019/qvpo/中发布。

添加pdf代下载 VIP点击下载文件

通过Q加权变化策略优化的基于扩散的增强学习

主要关键词

模型的高斯增强广泛的有效性控制任务 QVPO 扩散的局限性先进的特殊的模式效率多模式 RL 目标的训练目标政策扩散模型勘探有效的连续控制方面扩散策略样本强大的策略的算法模型能力增强的在线现有的提高正规化

通过Q加权变化策略优化的基于扩散的增强学习PDF文件第1页

通过Q加权变化策略优化的基于扩散的增强学习PDF文件第2页

通过Q加权变化策略优化的基于扩散的增强学习PDF文件第3页

通过Q加权变化策略优化的基于扩散的增强学习PDF文件第4页

通过Q加权变化策略优化的基于扩散的增强学习PDF文件第5页

可下载资源数量

已经购买

下载数量：1

通过Q加权变化策略优化的基于扩散的增强学习

通过Q加权变化策略优化的基于扩散的增强学习

相关文件推荐

阿伯泰的学习增强策略 2020-25

学习策略

通过增强学习

增强学习

逆增强学习

谁学习策略

学习策略

学习策略

学习策略

学习策略

学习策略

游戏增强了学习引起的大脑塑料变化

主动学习策略

离线增强学习

增强学习中的评估

进化增强学习

学习与教学策略

优化你的融资策略

学习成功策略

技术增强学习

一条腿还是两条腿？优化您的期权策略

本周学习策略

学习和改进策略

都柏林商学院 - SLATE 学习、评估和教学增强策略

主动学习策略

视频学习策略-3-2-1

学习策略与咨询

最有效的五大学习策略

基础学习策略

主动学习策略

XiaoMi-AI