点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
图2:左:在交叉环境中的不同场景的描述,代理控制银色汽车。两辆汽车都同时进入交叉路口,但是代理商不知道迎面而来的绿色汽车是向左转(左图)还是向右转(右图)。如果代理商太快地驱动到交叉路口,则可能会发生碰撞。右:学识渊博的(单峰)模型和地面真相分布p(− y s +1 | s t,a t),其中s t =(2,0,2,0),动作是要加速。在最大似然训练后,单峰模型错误地将大概率质量放在状态空间的不切实际区域。歧视器产生重要的权重(黑色箭头,日志刻度),使模型在不切实际的区域中的样本下降。
主要关键词