Loading...
机构名称:
¥ 1.0

图2:左:在交叉环境中的不同场景的描述,代理控制银色汽车。两辆汽车都同时进入交叉路口,但是代理商不知道迎面而来的绿色汽车是向左转(左图)还是向右转(右图)。如果代理商太快地驱动到交叉路口,则可能会发生碰撞。右:学识渊博的(单峰)模型和地面真相分布p(− y s +1 | s t,a t),其中s t =(2,0,2,0),动作是要加速。在最大似然训练后,单峰模型错误地将大概率质量放在状态空间的不切实际区域。歧视器产生重要的权重(黑色箭头,日志刻度),使模型在不切实际的区域中的样本下降。

鉴别器增强基于模型的强化...

鉴别器增强基于模型的强化...PDF文件第1页

鉴别器增强基于模型的强化...PDF文件第2页

鉴别器增强基于模型的强化...PDF文件第3页

鉴别器增强基于模型的强化...PDF文件第4页

鉴别器增强基于模型的强化...PDF文件第5页

相关文件推荐

2025 年
¥1.0
2023 年
¥1.0
2024 年
¥3.0