点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
4。我们收到一集,所以现在我们需要更新我们的价值。一集由开始状态S,动作A,端状态S'和奖励R(S,A,S')组成。情节的开始状态是上面的状态(您已经计算了特征值和预期Q值)。下一个状态具有特征值f g = 0和f p = 2,奖励为50。假设折扣为0。5,根据此情节计算S值的新估计值。
主要关键词