点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
蒙特卡洛(MC)方法是一种用于增强学习问题的技术。它们通过平均与环境相互作用的完整互动中的所有状态平均样本回报来工作。尽管有应用,但尚未完全理解它们的收敛性。操作性策略迭代是MC方法的一种变体,具有一些附加约束,可以保证融合到最佳解决方案。但是,现有的证据不是最直接的证据,通常是从难以访问的出版物中引用的结果。本论文是对该主题的文献回顾,在一个地方完全介绍了融合的原始证明。它还讨论了简化证明的尝试的尝试,为将来的研究提供了可能的方向。
主要关键词