点击购买,资源将自动在新窗口打开.
获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
在离线RL中,离线数据集通常是由策略的混合物收集的,行为策略可能会表现出:•强大的多模式,•偏度,•不同动作维度之间的依赖性,这不能由对角线高斯政策很好地建模。
主要关键词