我们探索了对重型汽车的深钢筋学习控制器的模拟传输,该重型车辆具有主动刺激,设计用于穿越粗糙的地形。相关研究主要集中于带有电动机的轻质机器人和快速致动,但本研究使用了具有复杂液压传动系统和缓慢致动的林业车辆。我们使用多体动力学模拟车辆并应用系统标识以找到适当的仿真参数。然后,我们使用各种技术来训练模拟中的策略,以减轻SIM卡之间的空白,包括域随机化,动作延迟和奖励惩罚,以鼓励平稳控制。实际上,经过行动延迟训练的政策和对不稳定行动的惩罚几乎在与模拟中相同的水平。在水平地面实验中,运动轨迹转向两侧以及路线跟踪方案时,运动轨迹紧密重叠。面对需要积极使用悬浮液的坡道时,模拟和真实动作处于密切的对齐状态。这表明执行器模型与系统识别产生了一个足够准确的执行器模型。我们观察到,未经其他行动罚款训练的政策表现出快速切换或BANG -BANG控制。这些当前的平稳运动和模拟中的高性能,但转移到现实的很差。我们发现政策使局部高度图的边缘使用以进行感知,没有显示预测计划的迹象。然而,强大的转移能力需要在很大程度上仅限于模拟。
主要关键词