物流调度的通用 MARL-LP 方法

第 1 部分:动态车辆路线的混合解决方案 — 背景和架构用于物流调度的通用 MARL-LP 方法一文首先出现在《走向数据科学》上。

来源:走向数据科学

简介

的运行效率常常令人惊讶:手动流程、成堆的文书工作、法律的复杂性。许多公司仍然在纸质或 Excel 上运行,甚至不收集发货数据。

但是,如果一家公司足够大,可以通过优化节省数百万甚至数亿美元(更不用说对环境的影响了)呢?或者,如果一家公司规模较小,但准备快速增长怎么办?

优化通常是不存在的或者是初级的——设计是为了操作方便,而不是最大限度地节省成本。该行业显然落后了,但桌面上却有大量资金。运输网络遍布全球,从阿拉斯加到悉尼。我不会在这里向您提供市场规模统计数据。内部人士已经知道规模,外部人士可以做出有根据的(或没有受过教育的)猜测。

这就是我进来的地方。作为一名数据科学和机器学习专家,我发现自己在一家快速发展的大型物流公司。至关重要的是,那里的团队不仅仅是走走过场,而是走走过场。他们真诚地想要优化。这导致了我领导了两年的长途运输优化项目的创建——这就是我在这里要讲述的故事。

这个项目将永远在我心中占据一个温暖的位置,尽管它从未完全投入生产。我相信它拥有巨大的潜力,特别是在物流与强化学习泛化决策的独特能力的结合方面。

虽然传统的优化项目通常侧重于最大化目标函数或执行速度,但这里最有趣的指标是我们可以使用同一模型(零样本或少样本)解决多少未见过的情况。

换句话说,我们的目标是制定可推广的零样本政策。

理想情况下,我们训练一个智能体,将其置于新的条件(它从未见过的条件)中,然后它就可以正常工作——无需任何重新训练或只进行最少的微调。我们不需要完美;我们只需要它表现得“足够好”,不违反 SLA。

愿望清单