点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
在这次演讲中,我介绍了连续时间政策评估算法设计的最新发展,并引入了新颖的Bellman方程式。这些方法将RL技术的灵活性与高阶数值方案的精度相结合。除其他结果外,我将强调基础椭圆结构如何提供强大的理论保证,即使有效的层远扩展到了无限。最后,我将讨论这些理论见解如何为实用算法设计提供信息。
主要关键词