点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
在本届研讨会上有关“强化学习数学”的研讨会中,我们深入研究了基于RL算法的数学基础。我们从马尔可夫链上的底漆开始,该引物建模了系统中状态之间的概率过渡,从而形成了RL环境的骨干。从那里,我们过渡到马尔可夫决策过程(MDP),通过纳入行动和奖励将决策引入这些链条,从而使我们能够正式地为代理寻找最佳政策的问题。通过了解这些过程背后的数学,包括动态编程和Bellman方程,参与者在推动最先进的RL算法的理论中获得了坚实的基础。然后,我们深入研究强化学习的实际实施。
主要关键词