点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
Q学习算法(Watkins)给出了一种以模型自由方式计算最佳策略的更优雅的方式。表示q(x,u)采取行动u时状态x的最佳期望值,然后最佳地进行。是q(x,u)= r(x,u) +γx
主要关键词