Loading...
机构名称:
¥ 2.0

摘要急救响应者管理(ERM)系统会在收到医疗援助请求时派遣救护车(例如救护车)。erm系统还可以在预先指定的等待位置之间主动重新定位,以涵盖由于事先派遣响应者或预期要求的分配的重大变化而产生的任何差距。最佳重新定义在计算上是充满挑战的,这是因为在未来请求中分配位置和不确定性之间的重新计算方法的指数数量。主动重新定位的最新方法是基于空间分解和蒙特卡洛树搜索的层次结构,这可能需要在几秒钟可以挽救生命的域中每个决策的计算分钟。我们通过基于相同的层次结构的分解,但通过学习替换学习来代替在线搜索,从而为漫长的决策时间问题打扮了漫长的决策时间。To address the computational challenges posed by large, variable-dimensional, and discrete state and action spaces, we propose: (1) actor-critic based agents that incorporate transformers to han- dle variable-dimensional states and actions, (2) projections to fixed-dimensional observations to handle complex states, and (3) combinatorial tech- niques to map continuous actions to discrete al- locations.我们使用来自美国田纳西州纳什维尔和华盛顿州西雅图的两个城市的现实世界数据来评估我们的方法。我们的实验表明,与艺术的状态相比,我们的方法将每个决策的计算时间减少三个数量级,而同时也将平均救护车响应时间稍微降低了5秒。

通过等级协调的多代理增强学习驻扎

通过等级协调的多代理增强学习驻扎PDF文件第1页

通过等级协调的多代理增强学习驻扎PDF文件第2页

通过等级协调的多代理增强学习驻扎PDF文件第3页

通过等级协调的多代理增强学习驻扎PDF文件第4页

通过等级协调的多代理增强学习驻扎PDF文件第5页