确定解决马尔可夫决策过程的有效方法__

确定解决马尔可夫决策过程的有效方法

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

确定解决马尔可夫决策过程的有效方法

¥ 1.0

热度

我们在这里考虑马尔可夫决策过程（MDPS），总体知识是已知的过渡和奖励功能。主要有两种有效的方法，可以使用基于模型的方法来精确求解MDP：动态编程或线性程序，如[11]中所述。确定解决MDP问题的最有效方法一直是文献研究的主题。有关全面的审查，请参阅[1]以及[11，9]。根据[11]，有人认为，基于价值的算法（例如价值迭代（VI）及其变体）并不像基于政策的方法那样实用，因此建议避免使用。另一方面，对基于策略的方法进行了比较下注政策迭代（PI）和政策迭代（PIM）尚不清楚，尽管后者似乎更有效[11]。早期的发现表明，线性编程方法不适合解决此类问题，这主要是由于求解器的速度慢[9]。尽管如此，文献中的比较研究有限，截至2007年，这个问题仍未解决[10]。随着线性编程求解器（例如Gurobi或cplex）的性能不断提高，以及并行化可能性的进步，对求解方法的定期重新评估变得相关。因此，在[1]的研究中，对线性编程和政策迭代的性能进行了比较分析，是对特定的马尔可夫决策过程（MDP）模型进行的，重点介绍了预期的总奖励标准。非零条目的1％。所考虑的MDP的特征是较大的状态空间（基数至少为2000），并且表现出各种动作选择（范围为2至500）。值得注意的是，所有过渡矩阵都高度稀疏，仅包含1％和0。先前的研究采用内点方法来解决线性程序。他们认为线性编程（LP）优于策略迭代（PI），并且对于特定模型而言，这显着。必须注意，[1]检查的模型类别在文献中很普遍，尤其是在给定状态下可能的转移数量的网络问题中。尽管如此，该研究仍具有一定的局限性。首先，即使这些方法可能会超过速度上的标准PI，但它并未考虑修改策略迭代及其变体。其次，研究中采用的LP解决方法仅提供政策而不是政策和价值观，就像动态编程一样。最后，其结论对更稀疏或其他操作标准的更广泛案例的概括性仍然不确定。这项工作的目的是找出线性编程在更一般的情况下是否仍然是一种有效的工具，并且在哪些条件（状态空间和行动空间维度，稀疏性）下找到使用动态编程仍然有效。

添加pdf代下载 VIP点击下载文件

确定解决马尔可夫决策过程的有效方法

主要关键词

模型的检查的迭代的解决采用的一定的提高仍然是局限性空间较大的给定状态动态解决方法标准的空间维度根据可能性方法政策预期的不适合全面的研究的早期的工作的有效的编程线性程序进行研究策略的状态求解先前的模型 PI 特定的比较研究线性迭代考虑的网络问题 11 价值观已知的一般的 MDP 可能的

确定解决马尔可夫决策过程的有效方法PDF文件第1页

确定解决马尔可夫决策过程的有效方法PDF文件第2页

确定解决马尔可夫决策过程的有效方法PDF文件第3页

可下载资源数量

已经购买

下载数量：1

确定解决马尔可夫决策过程的有效方法

确定解决马尔可夫决策过程的有效方法

相关文件推荐

有效决策过程的理论方法

马尔可夫决策过程的时间串联

马尔可夫决策过程的结构评估

马尔可夫决策过程的结构评估

确定跨越差距的决策过程...

一种新的基于马尔可夫决策过程的行为预测...

马尔可夫决策过程的因果模仿：部分...

一种基于马尔可夫决策过程的新型行为预测系统

一种基于马尔可夫决策过程的新型行为预测系统

一种基于马尔可夫决策过程的新型行为预测系统

解决刀具犯罪的有效方法：一项探索性研究

一种基于马尔可夫决策过程的新型行为预测系统

一种添加剂的多准则决策方法

1.3 决策过程遵循的程序。

军事决策过程

问题结构化方法在群体决策过程中的有效性研究

循环经济中能源生产消费者决策过程的启发式方法

一种解决发展困难的方法

领先的过程解决方案

公平决策的结果主义方法

实现它！减肥的有效方法

1.3 决策过程遵循的程序。（i）......

疫苗分配的决策过程

大脑过程如何影响我们的决策？

过程监控解决方案

不确定时期的战略决策

解决标题难题的方法

决策实践：模型和方法

人工智能在决策过程中的运用

集成模糊多准则决策方法与多

XiaoMi-AI