Loading...
机构名称:
¥ 1.0

传统的强化学习 (RL) 策略通常以固定的控制率实施,通常忽略控制率选择的影响。这可能导致效率低下,因为最佳控制率会随任务要求而变化。我们提出了多目标软弹性演员评论家 (MOSEAC),这是一种使用弹性时间步骤动态调整控制频率的离策略演员评论家算法。该技术通过选择最低可行频率来最大限度地减少计算资源。我们证明 MOSEAC 在理论层面上收敛并产生稳定的策略,并在实时 3D 赛车游戏中验证了我们的发现。在能源效率和任务有效性方面,MOSEAC 明显优于其他可变时间步骤方法。此外,MOSEAC 表现出更快、更稳定的训练,展示了其在机器人技术中用于现实世界 RL 应用的潜力。

弹性时间步长的强化学习

弹性时间步长的强化学习PDF文件第1页

弹性时间步长的强化学习PDF文件第2页

弹性时间步长的强化学习PDF文件第3页

弹性时间步长的强化学习PDF文件第4页

弹性时间步长的强化学习PDF文件第5页

相关文件推荐

2024 年
¥1.0
2023 年
¥1.0
2022 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2003 年
¥36.0
2024 年
¥7.0