使用库存管理的加固学习(RL)是研究的新生领域,方法往往限于简单的线性环境,其实现是对架子RL算法的较小修改。将这些简单的环境扩展到现实世界中的供应链带来了一些挑战,例如:最大程度地降低环境的计算要求,指定代表现实世界商店和仓库动态的代理的代理配置,并指定一个鼓励整个供应链中理想行为的奖励框架。在这项工作中,我们介绍了一个具有自定义GPU平行的环境的系统,该系统由一家仓库和多家商店组成,一种用于构图增强状态和动作空间的代理环境动力学的新型体系结构,以及共享的奖励规格,旨在为大型零售商的供应链的供应链的需求进行优化。供应链图中的每个顶点都是一个独立的代理,基于其自身的库存,能够将补充订单放在上游的顶点。仓库代理人除了订购供应商的订单外,还具有能够将补给品限制到下游的商店的特殊特征,这导致它学习了其他分配子政策。我们实现了一个超过标准库存控制政策的系统,例如基本库存策略和其他基于RL的产品的规范,并为多种产品提供了未来的工作方向。
主要关键词