任何步骤动态模型都改善了未来的pre__

任何步骤动态模型都改善了未来的pre

可下载资源数量

已经购买

下载数量：1

单价	0 2.0
Coupon	100% 0%
Total	0 2.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

任何步骤动态模型都改善了未来的pre

¥ 2.0

热度

基于模型的增强学习方法提供了一种有希望的方法来通过促进动态模型中的政策探索来提高数据效率。但是，由于自举预测，在动力学模型中准确预测的顺序步骤仍然是一个挑战，该预测将下一个状态归因于当前状态的预测。这会导致模型推出期间积累的错误。在本文中，我们提出了ny-step d ynamics m odel（adm），以通过将引导预测减少为直接预测来减轻复合误差。ADM允许将可变长度计划用作预测未来状态的输入，而无需频繁地引导。我们设计了两种算法，即ADMPO-ON和ADMPO-OFF，它们分别适用于在线和离线模型的框架中。在在线设置中，与以前的最新方法相比，ADMPO-ON显示出提高的样品效率。在离线设置中，与最近最新的离线方法相比，ADMPO不仅表现出优异的性能，而且还可以更好地使用单个ADM来更好地了解模型不确定性。该代码可在https://github.com/lamda-rl/admpo上找到。

添加pdf代下载 VIP点击下载文件

任何步骤动态模型都改善了未来的pre

主要关键词

预测计划动力学动态线方法相比学习方法输入下一个力学模型积累的引导以前的仍然是模型的状态归因于提高希望的高数据最新的在线 ADMPO 新方法方法模型 ADM 不确定性动态模型效率离线

任何步骤动态模型都改善了未来的prePDF文件第1页

任何步骤动态模型都改善了未来的prePDF文件第2页

任何步骤动态模型都改善了未来的prePDF文件第3页

任何步骤动态模型都改善了未来的prePDF文件第4页

任何步骤动态模型都改善了未来的prePDF文件第5页

可下载资源数量

已经购买

下载数量：1

任何步骤动态模型都改善了未来的pre

任何步骤动态模型都改善了未来的pre

相关文件推荐

ASC-IT：改善安全文化的七个步骤

3个步骤

改善

改善用

pre

步骤1

改善

改善院内心脏骤停护理质量和疗效的十个步骤

未来的防能交易

在pre-...

未来的油漆店

租户改善

未来的药理学

如何在四个简单的步骤

未来的燃料：

未来的航空部门：

未来的燃料

vildagliptin改善了

评估步骤

未来的炼油厂

未来的工作

太阳能互连步骤

改善焦点

未来的运输技术

氢：未来的燃料

未来的协议

未来的行业

未来的知识

如果你能遇见未来的自己会怎么样？

步骤计划

XiaoMi-AI