风险和冲动的独特发展轨迹___XiaoMi-AI 助力科研平台

风险和冲动的独特发展轨迹

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

风险和冲动的独特发展轨迹

¥ 1.0

热度

Actor-Critic方法在许多领域中实现了最新的性能，包括机器人技术，游戏和控制系统（[1]，[2]，[3]）。时间差异（TD）学习可能被认为是演员评论家的组成部分，而TD学习的更好界限通常是参与者 - 批评分析的成分。我们考虑强化学习中的政策评估问题：鉴于马尔可夫决策过程（MDP）和政策，我们需要估算本政策下每个州（预期的所有未来奖励总和）的价值。政策评估很重要，因为它实际上是许多其他算法（例如策略迭代和参与者批评）的子例程。政策评估的主要挑战是，我们通常不知道基本的MDP，并且只能与之互动，并且状态数量通常太大，迫使我们维持对状态值的真实向量的低维近似。我们将重点放在克服这组挑战的最简单类别的方法上，即具有线性函数近似的TD方法。这些方法试图维持低维参数，该参数会根据观察到的奖励和过渡不断更新，以维持跨州估计值的一致性。这些方法的收敛证明首先在[4]中给出。在本文中，我们重点介绍了策略评估的多代理版本：我们考虑具有同一MDP和相同政策副本的n个代理，但是MDP

添加pdf代下载 VIP点击下载文件