预先记录关键词检索结果

主动离线策略选择

Active offline policy selection

为了使 RL 更适用于机器人等现实世界的应用,我们建议使用智能评估程序来选择要部署的策略,称为主动离线策略选择 (A-OPS)。在 A-OPS 中,我们利用预先记录的数据集并允许与真实环境进行有限的交互以提高选择质量。