通过 MARL 克服物流中的高度不确定性

第 2 部分:构建可无缝改变环境的规模不变代理与 MARL 一起克服物流中的高不确定性一文首先出现在《迈向数据科学》上。

来源:走向数据科学

使用多智能体强化学习 (MARL) 进行物流调度优化系列的一部分。在这里,我更关注泛化是如何实现的。如果您想了解架构和业务环境,我建议您先阅读第 1 部分。

模型的目标是概括中英里过程并即使在不断变化的条件下也能生存。我通过三个基本概念实现了这一愿景:

  • 混合架构抽象了物理复杂性
  • 尺度不变观测创建通用模型输入
  • MARL 使代理具有适应性
  • 剧透警告:前两个概念允许我们在任务之间轻松转移代理,而第三个概念使代理在单个任务内甚至更多任务内自适应。让我们逐一看看。

    混合架构

    如何设计一个即使在进入全新环境时也能够提供强大解决方案的系统?你只需要让它解决的不是一个特定的特殊情况,而是更普遍的问题——更高抽象层次的问题。

    但我们如何将其变为现实呢?让我们将问题分层并使用混合解决方案:RL 负责高级策略,LP 负责低级执行。在此过程中,我们允许 RL 综合更广泛的领域知识,而 LP 则解决特定的、个别的打包案例。

    操作 = [num_vehicles_1, .., num_vehicles_n]

    有关混合方法和操作版本的更多详细信息,请参阅第 1 部分

    由于这种“职责分离”,RL 组件不再受包裹去往何处或如何包装等琐碎技术琐事的困扰。就像一个脱离执行细节的经理。

    最终,强化学习代理间接影响环境——它的宏大动作通过 LP 求解器进行处理,然后刷新环境的状态。

    下面是我们如何处理 RL 代理的动作并将其传递给 LP 求解器。

    尺度不变观察

    让我们讨论一些例子。

    观察

    零填充或最大节点填充

    马尔