点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
“我们按目标和目的的含义都可以很好地认为是对接收标量信号的累积总和的预期价值的最大化(称为奖励)” - Sutton&Littman 〜1990; Sutton&Barto 2018
主要关键词