详细内容或原文请订阅后点击阅览
学习可在许多部分可观察环境中工作的稳健控制器
在智能系统中,应用范围从自主机器人到预测性维护问题。为了控制这些系统,需要通过模型捕获基本方面。当我们为这些模型设计控制器时,我们几乎总是面临同样的挑战:不确定性。我们很少能够看到全貌。传感器有噪音,系统模型 [...]
来源:ΑΙhub在智能系统中,应用范围从自主机器人到预测性维护问题。为了控制这些系统,需要通过模型捕获基本方面。当我们为这些模型设计控制器时,我们几乎总是面临同样的挑战:不确定性。我们很少能够看到全貌。传感器有噪声,系统模型不完善;世界永远不会完全按照预期运行。
控制器 不确定性想象一个机器人绕过障碍物到达“目标”位置。我们将这个场景抽象到一个类似网格的环境中。一块石头可能会挡住路径,但机器人并不知道石头到底在哪里。如果确实如此,问题就会相当简单:规划一条围绕它的路线。但由于障碍物位置不确定,无论岩石在哪里,机器人都必须学会安全有效地操作。
这个简单的故事抓住了一个更广泛的挑战:设计能够应对部分可观测性和模型不确定性的控制器。在这篇博文中,我将引导您完成 IJCAI 2025 论文“隐藏模型 POMDP 的鲁棒有限内存策略梯度”,其中我们探索设计即使在环境未知的情况下也能可靠执行的控制器。
设计能够同时应对部分可观测性和模型不确定性的控制器 “隐藏模型 POMDP 的鲁棒有限内存策略梯度”当你看不到所有内容时
部分可观察马尔可夫决策过程 POMDP 观察 内存 有限状态控制器从部分可观察性到隐藏模型
POMDP 无法捕获部分可观察环境的集合 POMDP 的控制器不能推广到模型的扰动 模型不确定性 隐藏模型 HM-POMDP 代理必须学习一个在所有可能的环境中都表现良好的控制器 稳健 稳健的性能学习鲁棒控制器
那么,我们如何设计这样的控制器呢?
稳健的有限内存策略梯度 rfPG