点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
1假设所有元素都是从固定的确定性政策π中收集的。然后在表格设置中,如果每个元组随机采样并用于进行Q学习更新,然后将其重复一个无限的次数,则存在一个学习率的时间表,以便所得的估计将收敛到真实的Qπ。
主要关键词