通过 MARL 克服物流中的高度不确定性 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

通过 MARL 克服物流中的高度不确定性

2026年5月5日 12:00 33 Comments

第 2 部分：构建可无缝改变环境的规模不变代理与 MARL 一起克服物流中的高不确定性一文首先出现在《迈向数据科学》上。

来源:走向数据科学

使用多智能体强化学习 (MARL) 进行物流调度优化系列的一部分。在这里，我更关注泛化是如何实现的。如果您想了解架构和业务环境，我建议您先阅读第 1 部分。

模型的目标是概括中英里过程并即使在不断变化的条件下也能生存。我通过三个基本概念实现了这一愿景：

混合架构抽象了物理复杂性

尺度不变观测创建通用模型输入

MARL 使代理具有适应性

剧透警告：前两个概念允许我们在任务之间轻松转移代理，而第三个概念使代理在单个任务内甚至更多任务内自适应。让我们逐一看看。

如何设计一个即使在进入全新环境时也能够提供强大解决方案的系统？你只需要让它解决的不是一个特定的特殊情况，而是更普遍的问题——更高抽象层次的问题。

但我们如何将其变为现实呢？让我们将问题分层并使用混合解决方案：RL 负责高级策略，LP 负责低级执行。在此过程中，我们允许 RL 综合更广泛的领域知识，而 LP 则解决特定的、个别的打包案例。

操作 = [num_vehicles_1, .., num_vehicles_n]

有关混合方法和操作版本的更多详细信息，请参阅第 1 部分

由于这种“职责分离”，RL 组件不再受包裹去往何处或如何包装等琐碎技术琐事的困扰。就像一个脱离执行细节的经理。

最终，强化学习代理间接影响环境——它的宏大动作通过 LP 求解器进行处理，然后刷新环境的状态。

下面是我们如何处理 RL 代理的动作并将其传递给 LP 求解器。

让我们讨论一些例子。

详细信息影响环境领域知识混合 vehicles 多任务 num 代理的输入填充 RL 尺度环境适应性自适应通用模型系列的特定的环境的观测变化的代理基本概念个别的普遍的 MARL 模型的复杂性 LP 广泛的进行特殊情况架构不变操作解决方案