获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
Active offline policy selection
为了使 RL 更适用于机器人等现实世界的应用,我们建议使用智能评估程序来选择要部署的策略,称为主动离线策略选择 (A-OPS)。在 A-OPS 中,我们利用预先记录的数据集并允许与真实环境进行有限的交互以提高选择质量。