πlight:用于资源有限的流量信号控制
机构名称:
¥ 1.0

深度加固学习(DRL)的最新进步显着提高了适应性交通信号控制(TSC)的性能。但是,DRL策略通常由神经网络表示,这些神经网络是过度参数化的黑框模型。因此,学识渊博的政策通常缺乏解释性,由于资源构成而无法直接部署在现实世界中的硬件中。此外,DRL方法经常表现出限制性的概括性能,努力将学习的政策推广到其他地理区域。这些因素限制了基于学习的方法的实际应用。为了解决这些问题,我们建议使用一个可以继承的可解释程序来表示控制策略。我们提出了一种新的方法,即用于交通信号控制(π-light)的可策划增强学习,旨在自主发现非差异性的程序。具体来说,我们为构建程序定义了特定域的语言(DSL)和转换规则,并利用蒙特卡洛树搜索(MCT)在离散空间中找到最佳程序。广泛的实验表明,我们的方法始终超过基本线方法。此外,与DRL相比,π灯具有优越的通用能力,从而使跨不同城市的交叉点培训和评估。最后,我们分析了学到的计划政策如何直接在资源极有限的边缘设备上删除。

πlight:用于资源有限的流量信号控制

πlight:用于资源有限的流量信号控制PDF文件第1页

πlight:用于资源有限的流量信号控制PDF文件第2页

πlight:用于资源有限的流量信号控制PDF文件第3页

πlight:用于资源有限的流量信号控制PDF文件第4页

πlight:用于资源有限的流量信号控制PDF文件第5页

相关文件推荐

其他资源
2024 年
¥1.0
资源
2020 年
¥11.0