从增强学习到可区分的模拟___XiaoMi-AI 助力科研平台

从增强学习到可区分的模拟

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

从增强学习到可区分的模拟

¥ 1.0

热度

摘要 - 我们通过弥合以学习为中心的政策培训和基于模型的控制之间的差距来提供学习机器人控制的新见解。我们利用最佳控制，强化学习和可区分模拟来开发控制算法，从而增强机器人的敏捷性，同时在现实世界中保持稳健性。首先，我们表明，与最佳控制相比，机器人技术中增强学习的基本优势在于其优化目标。具体来说，RL直接最大化任务级目标，这可能是不可差异的，而最佳控制受到平滑且可微分的成本功能的要求限制。客观设计的灵活性允许实现更灵活的控制策略，从而在意外情况下导致更强的性能。第二，我们建议使用策略搜索自动优化模型预测控制（MPC）的高级策略。此公式使策略搜索能够专注于最大化高级任务目标，而MPC优化可以集中于低级跟踪性能。第三，我们探讨了可区分模拟进行政策培训的潜力。可区分的模拟可以提供低变化的一阶梯度，从而导致更稳定的训练和更好的收敛性。我们显示了玩具双积分器的近乎最佳控制性能及其对四足动力的潜力。

添加pdf代下载 VIP点击下载文件

从增强学习到可区分的模拟

主要关键词

灵活的动力的收敛性积分器控制算法搜索模拟跟踪性能机器人控制性稳健性功能的控制的设计的区分的增强控制学习稳定的控制性能中心的最大化优化模型政策意外情况学习的模型的双积分器最佳变化的控制策略区分可微分的灵活性性能梯度策略优化目标学习机可区分的微分的优化 MPC 预测控制敏捷性

从增强学习到可区分的模拟PDF文件第1页

从增强学习到可区分的模拟PDF文件第2页

从增强学习到可区分的模拟PDF文件第3页

从增强学习到可区分的模拟PDF文件第4页

从增强学习到可区分的模拟PDF文件第5页

可下载资源数量

已经购买

下载数量：1

从增强学习到可区分的模拟

从增强学习到可区分的模拟

相关文件推荐

增强学习

增强学习

增强学习

通过增强学习

增强学习

增强学习

增强学习

二元增强学习

通过增强学习

增强学习

逆增强学习

使用可区分的模拟学习四倍的运动

使用可区分的模拟学习四倍的运动

逆增强算法学习

增强学习是您需要的

微调中的增强学习价值

了解逆增强学习

suppodular增强学习

学习为增强学习优化

控制系统和增强学习

增强学习（E061360）

增强学习（MIE1630）

增强学习是您需要的

基于评级的增强学习

无模型增强学习

通过微小的增强学习

离线增强学习

增强学习中的评估

进化增强学习

技术增强学习

XiaoMi-AI