由于模型优化和客观现实之间的潜在不匹配,供应链库存管理中的有效概括是具有挑战性的。很难知道现实世界是如何配置的,因此很难为其最佳地训练代理。我们通过结合离线培训和在线适应来解决此问题。代理进行了离线训练。在在线适应阶段,代理商搜索上下文最大化奖励。代理商在网上迅速适应,并在了解上下文A-Priori的情况下实现了表现。特别是,他们在不推断正确的上下文的情况下进行了最佳行动,而是找到适合奖励最大化的环境。通过使代理商能够利用离线培训和在线适应,我们提高了他们在未知环境中的效率和有效性。该方法具有更广泛的潜在应用,并有助于使RL算法在实际情况下有用。我们已根据https://github.com/abatsis/supply_chain_few_shot_rl发布了本文的代码。