模型预测控制和增强学习___XiaoMi-AI 助力科研平台

模型预测控制和增强学习

可下载资源数量

已经购买

下载数量：1

单价	0 2.0
Coupon	100% 0%
Total	0 2.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

模型预测控制和增强学习

¥ 2.0

热度

摘要：在本文中，我们描述了一个新的概念框架，该概念框架连接近似动态编程（DP），模型预测控制（MPC）和加固学习（RL）。该框架以两种算法为中心，这些算法在很大程度上是彼此独立的，并通过牛顿方法的强大机制在协同作用中起作用。我们称它们为“线”训练和在线播放算法。名称是从涉及游戏的RL的一些主要成功中借来的；主要示例是最近（2017年）Alphazero程序（下棋，[SHS17]，[SSS17]）和类似结构化的和早期（1990年代）TD-Gammon程序（扮演Backgammon，[Tes94]，[TES95]，[TES95]，[TEG96，[TEG96]））。在这些游戏上下文中，O效率训练算法是一种教授该程序如何评估位置并在任何给定位置产生良好动作的方法，而在线游戏算法是一种实时对抗人或计算机对手的方法。显着，在线训练和在线比赛之间的协同作用也构成了MPC的基础（以及其他主要的顺序决策问题类别），实际上MPC设计体系结构与Alphazero和TD-Gammon的一种非常相似。这种概念上的见解提供了弥合RL和MPC之间文化差距的工具，并为MPC中的某些基本问题提供了新的启示。这些包括通过推出来增强稳定性，通过使用确定性等效性来处理不确定性，MPC在涉及更改系统参数的自适应控制设置中的弹性以及由牛顿方法所暗示的超线性绩效界限提供的见解。

添加pdf代下载 VIP点击下载文件

模型预测控制和增强学习

主要关键词

MPC 概念实际上作用 TES95 设计体系起作用动态框架等效性在线 RL 程序稳定性方法预测控制 TEG96 协同作用 Alphazero 计算机涉及系统参数提供体系结构协同 TD 算法不确定性主要的独立的自适应给定位置参数的位置动作的 Gammon

模型预测控制和增强学习PDF文件第1页

模型预测控制和增强学习PDF文件第2页

模型预测控制和增强学习PDF文件第3页

模型预测控制和增强学习PDF文件第4页

模型预测控制和增强学习PDF文件第5页

可下载资源数量

已经购买

下载数量：1

模型预测控制和增强学习

模型预测控制和增强学习

相关文件推荐

通过模型预测控制的高速公路坡道计量的增强学习

增强学习

增强学习

增强学习

通过增强学习

增强学习

增强学习

增强学习

二元增强学习

通过增强学习

增强学习

逆增强学习

通过整合深度强化学习和模型预测控制

通过逆增强学习迈向可解释的深层增强学习模型

逆增强算法学习

增强学习是您需要的

微调中的增强学习价值

了解逆增强学习

suppodular增强学习

学习为增强学习优化

控制系统和增强学习

增强学习（E061360）

增强学习（MIE1630）

增强学习是您需要的

基于评级的增强学习

基于云的模型预测控制安全

无模型增强学习

通过微小的增强学习

离线增强学习

增强学习中的评估

XiaoMi-AI