Loading...
机构名称:
¥ 1.0

已经开发了一个简单的软操作器 - 一种仅在其底部致动的连续软杆,以探索这些模型。系统标识首先是使用全部信息,然后使用有限的信息来得出操纵器的动力学。然后,通过基于模型的RL对控制器进行训练,目的是将Ma-Nipulator保持在直立位置。这种方法通过通过学习动力学生成模拟数据来规避收集数据以进行无模型增强学习的效率低下。的目标是,通过对模拟动态进行训练,增强能够比实时培训更快,从而提高数据效率。比较了无模型和基于模型的方法以测试这一点。然后,还将增强学习与传统线性季节调节器(LQR)控制和比例积分衍生物(PID)控制的功效进行比较。作为外部影响和训练,有Pilco((Deisenroth&Rasmussen,2011)),这是一种基于Gaussian过程的控制学习计划,用于系统识别和策略搜索试验之间的控制。

4M25-最终报告系统标识和基于模型的...

4M25-最终报告系统标识和基于模型的...PDF文件第1页

4M25-最终报告系统标识和基于模型的...PDF文件第2页

4M25-最终报告系统标识和基于模型的...PDF文件第3页

4M25-最终报告系统标识和基于模型的...PDF文件第4页

4M25-最终报告系统标识和基于模型的...PDF文件第5页