摘要 - 按需(AMOD)系统的自主移动性是一种不断发展的运输方式,其中中央协调的自动驾驶汽车的舰队动态地服务了旅行请求。这些系统的控制通常被称为一个大型网络优化问题,而增强学习(RL)最近已成为解决该领域中开放挑战的一种有前途的方法。最近的集中式RL方法专注于从在线数据中学习,而忽略了实际运输系统中的每样本相互作用。为了解决这些限制,我们建议通过离线强化学习的镜头正式对AMOD系统进行正式控制,并使用仅离线数据学习有效的控制策略,这很容易为当前的移动性运营商提供。我们进一步研究了设计决策,并根据现实世界中移动性系统的数据提供了经验证据,表明了离线学习如何恢复(i)(i)(i)与在线方法表现出相同的AMOD控制策略,(ii)允许样品有效的在线微调和(iii)消除复杂的模拟环境的需求。至关重要的是,本文表明,离线RL是在经济临界系统(例如迁移率系统)中应用基于RL的SO的有希望的范式。
主要关键词