在这份简短的报告中,我们介绍了我们的团队实施的强化学习(RL)[1]来应对在IROS 2024 1举行的第二次AI奥运会竞赛的模拟阶段。The algorithm we employed, Monte- Carlo Probabilistic Inference for Learning COntrol (MC- PILCO) [2], is a Model-Based (MB) RL algorithm that proved remarkably data-efficient in several low-dimensional benchmarks, such as a cart-pole, a ball & plate, and a Furuta pendulum, both in simulation and real setups.mc-pilco也是赢得本次比赛第一版的算法[3]。mc-pilco是MB策略梯度算法的一部分。它通过与系统进行交互来利用收集的数据来得出系统动力学模型并通过模拟系统来优化策略,而不是直接在系统数据上优化策略。应用于物理系统时,这种方法可以比无模型(MF)解决方案高表现和数据效率高。本文的组织如下:第二部分介绍了竞争的目标和设置。第三部分介绍了MC-PILCO算法。 第四节报告了已经执行的实验,最后V节结束了论文。第三部分介绍了MC-PILCO算法。第四节报告了已经执行的实验,最后V节结束了论文。第四节报告了已经执行的实验,最后V节结束了论文。
已经开发了一个简单的软操作器 - 一种仅在其底部致动的连续软杆,以探索这些模型。系统标识首先是使用全部信息,然后使用有限的信息来得出操纵器的动力学。然后,通过基于模型的RL对控制器进行训练,目的是将Ma-Nipulator保持在直立位置。这种方法通过通过学习动力学生成模拟数据来规避收集数据以进行无模型增强学习的效率低下。的目标是,通过对模拟动态进行训练,增强能够比实时培训更快,从而提高数据效率。比较了无模型和基于模型的方法以测试这一点。然后,还将增强学习与传统线性季节调节器(LQR)控制和比例积分衍生物(PID)控制的功效进行比较。作为外部影响和训练,有Pilco((Deisenroth&Rasmussen,2011)),这是一种基于Gaussian过程的控制学习计划,用于系统识别和策略搜索试验之间的控制。
