扩大加固学习以进行流量平滑:100 av高速公路部署

通过增强学习的培训扩散模型我们部署了100辆加固学习(RL)控制的汽车,进入高速公路的高速公路交通,以使拥挤并减少每个人的燃油消耗。我们的目标是应对“停下来”的波浪,那些令人沮丧的放缓和速度通常没有明确原因,但导致拥挤和大量的能源浪费。为了培训有效的流动式光滑控制器,我们建立了快速,数据驱动的模拟,该模拟与RL代理相互作用,学习以最大程度地提高能源效率,同时保持吞吐量并安全地围绕人驾驶员进行安全操作。总体而言,一小部分控制的自动驾驶汽车(AV)足以显着提高道路上所有驾驶员的交通流量和燃油效率。此外,训练有素的控制器旨在在大多数现代车辆上部署,以分散的方式运行并依靠标准的雷达传感器。在我们的最新论文中,我们探讨了在这100辆车实验中,从模拟到现场的大规模部署RL控制器的挑战。幻影JAMSA停下来的挑战在高速公路上通过高速公路交通向后移动。如果您驾驶的是,您肯定会经历了停车浪潮的挫败感,那么这些障碍似乎不断降低了,这些障碍会逐渐消失,并且出现了不足的范围。这些波通常是由于我们的驾驶行为中的微小波动引起的,这些波动通过交通流量而放大。我们自然而然地

来源:BAIR