Loading...
机构名称:
¥ 3.0

蒙特卡洛(MC)方法是一种用于增强学习问题的技术。它们通过平均与环境相互作用的完整互动中的所有状态平均样本回报来工作。尽管有应用,但尚未完全理解它们的收敛性。操作性策略迭代是MC方法的一种变体,具有一些附加约束,可以保证融合到最佳解决方案。但是,现有的证据不是最直接的证据,通常是从难以访问的出版物中引用的结果。本论文是对该主题的文献回顾,在一个地方完全介绍了融合的原始证明。它还讨论了简化证明的尝试的尝试,为将来的研究提供了可能的方向。

关于蒙特卡洛乐观政策迭代的收敛性

关于蒙特卡洛乐观政策迭代的收敛性PDF文件第1页

关于蒙特卡洛乐观政策迭代的收敛性PDF文件第2页

关于蒙特卡洛乐观政策迭代的收敛性PDF文件第3页

关于蒙特卡洛乐观政策迭代的收敛性PDF文件第4页

关于蒙特卡洛乐观政策迭代的收敛性PDF文件第5页

相关文件推荐

2025 年
¥1.0
2020 年
¥2.0
2021 年
¥1.0
2024 年
¥2.0
2024 年
¥1.0
2020 年
¥1.0
2022 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥2.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2021 年
¥3.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
1900 年
¥1.0
2023 年
¥5.0
2025 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0