详细内容或原文请订阅后点击阅览
GRACE:可解释逆强化学习的语言模型框架
逆强化学习旨在从专家演示中恢复奖励模型,但传统方法会产生难以解释和调试的“黑盒”模型。在这项工作中,我们介绍了 GRACE(生成奖励作为 CodE),这是一种在进化搜索中使用大型语言模型来直接从专家轨迹逆向工程可解释的、基于代码的奖励函数的方法。由此产生的奖励函数是可以检查和验证的可执行代码。我们在 BabyAI 和 AndroidWorld 基准上凭经验验证 GRACE,它可以有效地学习……
来源:Apple机器学习研究逆强化学习旨在从专家演示中恢复奖励模型,但传统方法会产生难以解释和调试的“黑盒”模型。在这项工作中,我们介绍了 GRACE(生成奖励作为 CodE),这是一种在进化搜索中使用大型语言模型来直接从专家轨迹逆向工程可解释的、基于代码的奖励函数的方法。由此产生的奖励函数是可以检查和验证的可执行代码。我们在 BabyAI 和 AndroidWorld 基准上凭经验验证 GRACE,即使在复杂的多任务设置中,它也能有效地学习高度准确的奖励。此外,我们证明,与具有真实奖励的竞争性模仿学习和在线强化学习方法相比,由此产生的奖励会带来强有力的政策。最后,我们证明 GRACE 能够在多任务设置中构建复杂的奖励 API。
