Loading...
机构名称:
¥ 1.0

摘要 - Q学习已成为增强学习工具包的重要组成部分,因为它在1980年代的克里斯·沃特金斯(Chris Watkins)论文中引入了。在原始表格公式中,目标是精确地计算出折扣成本优化方程的解决方案,从而获得马尔可夫决策过程的最佳策略。今天的目标更为适中:在规定的功能类中获得近似解决方案。标准算法基于与1980年代公式相同的体系结构,其目的是找到一个求解所谓的投影贝尔曼方程的价值函数近似。虽然增强学习一直是一个活跃的研究领域,但几乎没有理论提供这些Q学习算法的融合条件,甚至存在该方程的解决方案。本文的目的是表明,只要函数类是线性的,并且用于训练的输入是ε-绿色策略的一种形式,并且具有足够小的ε。此外,在这些条件下,就界限参数估计而言,Q学习算法是稳定的。融合仍然是众多研究主题之一。

介导的环呼定分解聚合:合成...

介导的环呼定分解聚合:合成...PDF文件第1页

介导的环呼定分解聚合:合成...PDF文件第2页

介导的环呼定分解聚合:合成...PDF文件第3页

介导的环呼定分解聚合:合成...PDF文件第4页

介导的环呼定分解聚合:合成...PDF文件第5页