鉴别器增强基于模型的强化...___XiaoMi-AI 助力科研平台

鉴别器增强基于模型的强化...

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

鉴别器增强基于模型的强化...

¥ 1.0

热度

图2：左：在交叉环境中的不同场景的描述，代理控制银色汽车。两辆汽车都同时进入交叉路口，但是代理商不知道迎面而来的绿色汽车是向左转（左图）还是向右转（右图）。如果代理商太快地驱动到交叉路口，则可能会发生碰撞。右：学识渊博的（单峰）模型和地面真相分布p（− y s +1 | s t，a t），其中s t =（2，0，2，0），动作是要加速。在最大似然训练后，单峰模型错误地将大概率质量放在状态空间的不切实际区域。歧视器产生重要的权重（黑色箭头，日志刻度），使模型在不切实际的区域中的样本下降。

添加pdf代下载 VIP点击下载文件