摘要 - 许多现实世界的应用程序可以作为多机构合作问题,例如网络数据包路由和自动驾驶汽车的协调。深入增强学习的出现(DRL)通过代理和环境的相互作用为多机构合作提供了一种有希望的方法。然而,传统的DRL解决方案在策略搜索过程中遭受了具有连续动作空间的多个代理的高维度。此外,代理政策的动态性使训练非平稳。为了解决这些问题,我们建议采用高级决策和低级个人控制,以进行有效的政策搜索。特别是,可以在高级离散的动作空间中学习多种代理的合作。同时,低级个体控制可以减少为单药强化学习。除了分层增强学习外,我们还建议对手建模网络在学习过程中对其他代理的政策进行建模。与端到端的DRL方法相反,我们的方法通过以层次结构将总体任务分解为子任务来降低学习复杂性。为了评估我们方法的效率,我们在合作巷更改方案中进行了现实世界中的案例研究。模拟和现实世界实验都显示了我们在碰撞速度和收敛速度中的优越性。索引条款 - 多机构合作;深入的强化学习;分层增强学习
1。丰田安全意义有效性取决于许多因素,包括道路,天气和车辆状况。驾驶员对自己的安全驾驶负责。始终注意周围环境并安全开车。有关限制,请参见所有者手册。2。带有行人检测(PD)的预碰撞系统(PC)旨在帮助降低涉及车辆,行人,骑自行车的人或摩托车手的某些额叶碰撞中的碰撞速度和损坏。w/ pd的PC不能替代安全驾驶。系统有效性取决于许多因素,例如车辆,行人,骑自行车的人或摩托车师以及天气,光线和道路状况等许多因素。有关限制,请参见所有者手册。3。带转向辅助的车道出发警报旨在在某些条件下读取可见的车道标记。检测到车道出发时,它提供了视觉/可听见的警报和轻微的转向力。它不是避免碰撞的系统,也不是替代安全驾驶。有效性取决于许多因素,包括道路,天气和车辆状况。有关限制,请参见所有者手册。4。动态雷达巡航控制无法替代安全和细心的驾驶。有关说明和限制,请参见所有者手册。5。车道跟踪辅助(LTA)泳道居中功能旨在读取可见的车道标记并在某些条件下检测其他车辆。只有在DRCC参与时才能运作。6。7。在具有手动变速器的车辆上无法使用。有关限制,请参见所有者手册。紧急驾驶停止系统将无法检测到所有紧急情况,并且只有在动态雷达巡航控制和车道跟踪辅助处于活动状态时才能运行。有关其他限制,请参见所有者手册。道路标志辅助只能识别某些路标。有关限制,请参见所有者手册。8。自动远光灯以高于25 mph的速度运行。有关说明和限制,请参见所有者手册。9。主动驾驶辅助(PDA)旨在检测道路上的某些物体或曲线,并提供柔和的制动和/或转向支撑。PDA不能替代安全驾驶。系统有效性取决于许多因素,例如速度,大小和检测到的物体,天气,光线和道路状况。有关其他限制和详细信息,请参见所有者手册。