Loading...
机构名称:
¥ 1.0

摘要 - 我们通过弥合以学习为中心的政策培训和基于模型的控制之间的差距来提供学习机器人控制的新见解。我们利用最佳控制,强化学习和可区分模拟来开发控制算法,从而增强机器人的敏捷性,同时在现实世界中保持稳健性。首先,我们表明,与最佳控制相比,机器人技术中增强学习的基本优势在于其优化目标。具体来说,RL直接最大化任务级目标,这可能是不可差异的,而最佳控制受到平滑且可微分的成本功能的要求限制。客观设计的灵活性允许实现更灵活的控制策略,从而在意外情况下导致更强的性能。第二,我们建议使用策略搜索自动优化模型预测控制(MPC)的高级策略。此公式使策略搜索能够专注于最大化高级任务目标,而MPC优化可以集中于低级跟踪性能。第三,我们探讨了可区分模拟进行政策培训的潜力。可区分的模拟可以提供低变化的一阶梯度,从而导致更稳定的训练和更好的收敛性。我们显示了玩具双积分器的近乎最佳控制性能及其对四足动力的潜力。

从增强学习到可区分的模拟

从增强学习到可区分的模拟PDF文件第1页

从增强学习到可区分的模拟PDF文件第2页

从增强学习到可区分的模拟PDF文件第3页

从增强学习到可区分的模拟PDF文件第4页

从增强学习到可区分的模拟PDF文件第5页

相关文件推荐