Loading...
机构名称:
¥ 1.0

摘要 - 使用深钢筋学习训练的控制政策通常会产生僵硬的高频运动,以应对意外的干扰。为了促进更自然和合规的平衡恢复策略,我们建议对典型的强化学习训练过程进行简单的修改。我们的关键见解是,对扰动的僵硬响应是由于代理商始终激励任务奖励,即使在应用扰动的情况下也是如此。作为替代方案,我们引入了一个明确的恢复阶段,在该阶段中,无论控制策略所产生的动议如何,都会给予跟踪奖励。这使代理商有机会在尝试执行其主要任务之前从干扰中逐渐恢复。通过深入分析,我们既强调了由此产生的控制策略的合规性,以及合规性带来的益处。在我们的模拟和硬件实验中,合规的策略可实现与环境的更强大,能节能和安全的互动。

腿部机器人的深层控制

腿部机器人的深层控制PDF文件第1页

腿部机器人的深层控制PDF文件第2页

腿部机器人的深层控制PDF文件第3页

腿部机器人的深层控制PDF文件第4页

腿部机器人的深层控制PDF文件第5页

相关文件推荐

2024 年
¥3.0
2024 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2018 年
¥2.0