预先记录领域信息情报检索---XiaoMi-AI

DeepMind - 新闻与博客

2022年5月6日 00:00

主动离线策略选择

为了使 RL 更适用于机器人等现实世界的应用，我们建议使用智能评估程序来选择要部署的策略，称为主动离线策略选择 (A-OPS)。在 A-OPS 中，我们利用预先记录的数据集并允许与真实环境进行有限的交互以提高选择质量。