Loading...
机构名称:
¥ 2.0

我们感兴趣的是设计计算高效的架构来解决有限时域马尔可夫决策过程 (MDP),这是一种流行的多阶段决策问题建模框架 [1,22],具有广泛的应用,从数据和呼叫中心的调度 [12] 到间歇性可再生资源的能源管理 [13]。在 MDP 中,在每个阶段,代理都会根据系统状态做出决策,从而获得即时奖励,并相应更新状态;代理的目标是找到一个最优策略,使时间范围内的总预期奖励最大化。虽然寻找解决 MDP 的有效算法一直是一个活跃的研究领域(有关调查请参阅 [20,17]),但我们将采取不同的方法。我们不是从头开始创建新算法,而是研究如何设计架构,以创造性的方式利用现有的 MDP 算法作为“黑匣子”,以获得额外的性能提升。作为朝这个方向迈出的第一步,我们提出了时间串联启发式方法,它沿时间轴采用分而治之的方法:对于具有水平线 { 0 ,... ,T − 1 } 的 MDP,我们将原始问题实例(I 0)在水平线上划分为两个子实例:0 ,... ,T

马尔可夫决策过程的时间串联

马尔可夫决策过程的时间串联PDF文件第1页

马尔可夫决策过程的时间串联PDF文件第2页

马尔可夫决策过程的时间串联PDF文件第3页

马尔可夫决策过程的时间串联PDF文件第4页

马尔可夫决策过程的时间串联PDF文件第5页

相关文件推荐

2023 年
¥15.0
2024 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0