Loading...
机构名称:
¥ 1.0

4。我们收到一集,所以现在我们需要更新我们的价值。一集由开始状态S,动作A,端状态S'和奖励R(S,A,S')组成。情节的开始状态是上面的状态(您已经计算了特征值和预期Q值)。下一个状态具有特征值f g = 0和f p = 2,奖励为50。假设折扣为0。5,根据此情节计算S值的新估计值。

CS188 2014年春季第5节:加固学习

CS188 2014年春季第5节:加固学习PDF文件第1页

CS188 2014年春季第5节:加固学习PDF文件第2页

CS188 2014年春季第5节:加固学习PDF文件第3页