Loading...
机构名称:
¥ 2.0

通常,马尔可夫决策过程是“一个离散的随机控制过程。它提供了一个数学框架,用于在结果部分是随机的,部分地在决策者控制的情况下对决策进行建模。MDP是有用的研究通过动态编程解决的优化问题。”(Wikipedia)

第18讲 - 马尔可夫决策过程; Q学习。 pptx

第18讲 - 马尔可夫决策过程; Q学习。 pptxPDF文件第1页

第18讲 - 马尔可夫决策过程; Q学习。 pptxPDF文件第2页

第18讲 - 马尔可夫决策过程; Q学习。 pptxPDF文件第3页

第18讲 - 马尔可夫决策过程; Q学习。 pptxPDF文件第4页

第18讲 - 马尔可夫决策过程; Q学习。 pptxPDF文件第5页

相关文件推荐

2023 年
¥15.0