四足机器人运动的连续加固学习
机构名称:
¥ 1.0

摘要:不断学习的能力对于机器人获得高水平的智力和自主权至关重要。在本文中,我们考虑针对四足机器人的连续加强学习(RL),其中包括能够不断学习子序列任务(可塑性)并保持先前​​任务的性能(稳定性)的能力。提出的方法获得的策略使机器人能够依次学习多个任务,同时克服了灾难性的遗忘和可塑性的丧失。同时,它可以实现上述目标,并尽可能少地修改原始RL学习过程。所提出的方法使用Piggyback算法为每个任务选择受保护的参数,并重新定位未使用的参数以提高可塑性。同时,我们鼓励探索政策网络,鼓励策略网络的软网络的熵。我们的实验表明,传统的持续学习算法在机器人运动问题上不能很好地表现,并且我们的算法对RL培训的进度更加稳定,并且对RL培训的进度更少。几个机器人运动实验验证了我们方法的有效性。

四足机器人运动的连续加固学习

四足机器人运动的连续加固学习PDF文件第1页

四足机器人运动的连续加固学习PDF文件第2页

四足机器人运动的连续加固学习PDF文件第3页

四足机器人运动的连续加固学习PDF文件第4页

四足机器人运动的连续加固学习PDF文件第5页