Loading...
机构名称:
¥ 1.0

摘要 - 我们考虑称为消费马尔可夫决策过程的形式主义的定性策略综合。这种形式主义可以模拟在随机环境中资源约束下运行的代理的动力学。所提出的算法就模型的表示而在多项式上起作用,并合成策略,以确保在没有资源耗尽的概率1的情况下(一次或无限多次)达到给定的目标状态(一次或无限多次)。特别是,当资源数量变得太低以至于无法安全地继续执行任务时,战略将代理商的过程更改为指定的一套重新加载态之一,在该州中,代理商将资源补充资源已充分满足;凭借足够数量的资源,代理商试图再次实现任务。我们还提出了两种启发式方法,试图减少代理商需要实现给定任务的预期时间,这是实践计划中重要的参数。实施了所提出的算法,数值示例表明(i)基于消费马尔可夫决策过程的计划方法的有效性(在计算时间)和(ii)两种启发式方法对现实示例中计划的积极影响。

使用资源的MDP的有效策略合成...

使用资源的MDP的有效策略合成...PDF文件第1页

使用资源的MDP的有效策略合成...PDF文件第2页

使用资源的MDP的有效策略合成...PDF文件第3页

使用资源的MDP的有效策略合成...PDF文件第4页

使用资源的MDP的有效策略合成...PDF文件第5页