通过层次加强学习重新思考决策变压器__

通过层次加强学习重新思考决策变压器

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

通过层次加强学习重新思考决策变压器

¥ 1.0

热度

决策变压器（DT）是一种创新的责任，利用了强化学习（RL）的跨前结构的最新进展。然而，DT的一个显着限制是其对回忆数据集的轨迹的依赖性，使能力无缝缝合亚壁轨迹。在这项工作中，我们引入了一个通用序列建模框架，用于通过层次RL的角度进行顺序决策进行研究。在做出决定时，高级政策首先提出了当前状态的理想提示，而低级政策随后在给定提示中生成了一项诉讼。我们表明，DT是该框架的特殊情况，并具有某些高级和低级政策的选择，并讨论了这些选择的潜在失败。受这些观察的启发，我们研究了如何共同优化高级和低级政策以实现缝合能力，这进一步导致了新的rl算法的发展。我们的经验结果清楚地表明，所构成的算法在数量控制和导航基准上显着超过了DT。我们希望我们的贡献能够激发RL领域内变压器体系结构的整合。

添加pdf代下载 VIP点击下载文件

通过层次加强学习重新思考决策变压器

主要关键词

轨迹提示依赖性 DT 观察的特殊情况选择的体系结构工作中结构的缝合序列算法框架进行轨迹的政策变压器研究 RL 数据集低级高级能力利用

通过层次加强学习重新思考决策变压器PDF文件第1页

通过层次加强学习重新思考决策变压器PDF文件第2页

通过层次加强学习重新思考决策变压器PDF文件第3页

通过层次加强学习重新思考决策变压器PDF文件第4页

通过层次加强学习重新思考决策变压器PDF文件第5页

可下载资源数量

已经购买

下载数量：1

通过层次加强学习重新思考决策变压器

通过层次加强学习重新思考决策变压器

相关文件推荐

重新思考图对比学习中的消息传递

通过层次结构链进行加强学习

添加3.0：在设计过程中重新思考驱动程序和决策

强化学习如何重新定义临床决策

强化学习如何重新定义临床决策

学习TSP需要重新思考概括-Drops

使用加强学习

重新思考手机

重新思考教育

（重新）思考弹性

重新思考大脑*

重新思考铁轨

重新思考化学

重新思考网络安全

家庭融资的加强学习

潜在空间中的决策变压器学习离线驾驶政策

加强学习中的概括

重新思考我们的意识

重新思考癌症

重新思考户外极限运动中决策的本质...

联合会中的知识增强：重新思考哪些协作学习可以带回分散数据

重新思考政府的建筑

建造与人学习和思考的机器

我们可以从加强学习范式中解放出AI吗？

重新思考生成ai

重新思考知识蒸馏

重新思考公司脱碳

重新思考阿尔茨海默氏病

重新思考规范心理学

重新思考区域吸引力

XiaoMi-AI