代理商的输入包括在先前时间段记录的车辆计数和平均速度,以及当前交通信号灯计划中阶段之间的绿时间分布。代理从预定义的列表中选择一个交通灯程序,每个程序仅在周期长度和绿色时间分布方面变化。此动作空间设计反映了现实世界中的交集管理约束。奖励功能,对于指导代理商的性能至关重要,使用负累积的等待时间作为反馈。这确保代理人不会优先考虑一种方法,而不是另一种方法。为了训练代理商,我们采用了良好的深入增强学习方法,深Q网络(DQN),并与Epsilon-Greedy Exploration策略结合使用。
主要关键词