蒸馏加固学习算法___XiaoMi-AI 助力科研平台

蒸馏加固学习算法

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

蒸馏加固学习算法

¥ 1.0

热度

最近的研究表明，变压器可以通过模仿现有的RL算法来执行内在的增强学习（RL），从而使样本有效的适应能够适应无参数更新而无需看到的任务。但是，这些模型还继承了它们模仿的RL算法的次优行为。由于这些算法采用的逐渐更新规则，因此出现了此问题。基于模型的计划通过允许模拟在采取行动之前模拟潜在结果，提供了一种额外的机制来偏离次优行为，从而为这种限制提供了有希望的解决方案。我们没有学习Sepa-Rate Dynamics模型，而是提出了基于信用的RL框架（DICP）的蒸馏（DICP），在其中，变压器同时学习环境动力学并改善策略，并在内部进行改善。我们评估了跨多种离散和连续环境（包括暗室变体和元世界）的DICP。我们的结果表明，与基准相比，DICP可以达到最先进的性能，同时需要的环境相互作用要少得多，基本线包括无模型的对应物和现有的Meta-RL方法。该代码可在https://github.com/jaehyhyeon-son/dicp上获得。

添加pdf代下载 VIP点击下载文件

蒸馏加固学习算法

主要关键词

模型的有效的希望的需要的包括相互作用采用的改善环境参数更新适应额外的动力学先进的更新规则算法模型互作用模拟次优对应物 RL 最近的 DICP 模仿变压器现有的学习提供

蒸馏加固学习算法PDF文件第1页

蒸馏加固学习算法PDF文件第2页

蒸馏加固学习算法PDF文件第3页

蒸馏加固学习算法PDF文件第4页

蒸馏加固学习算法PDF文件第5页

可下载资源数量

已经购买

下载数量：1

蒸馏加固学习算法

蒸馏加固学习算法

相关文件推荐

逆增强算法学习

水力发电的加固学习

量子加固学习

与加固学习PA026

算法和体系结构的学习

使用加固学习

变分量子算法和量子机学习

AI 832：加固学习教科书

连续控制以粗到十的加固学习

联邦学习中的知识蒸馏

llms / rlhf < / div>的加固学习

通过后取样有效的加固学习

从答案中学习的加固学习

高级深度学习算法

Lipschitz终身加固学习

粒子加速器中的加固学习

粒子加速器中的加固学习

CERN加速器的加固学习

comp 138：加固学习

算法选择为超集学习

批量量子加固学习

使用掩盖加固学习

加固学习简介（RL）

四足机器人运动的连续加固学习

使用深度学习算法

使用深度学习算法

使用安全加固学习

计算模型、架构和学习算法

rosarl：仅奖励安全的加固学习

javanese国际象棋游戏和加固学习

XiaoMi-AI