GRACE: A Language Model Framework for Explainable Inverse Reinforcement Learning
逆强化学习旨在从专家演示中恢复奖励模型,但传统方法会产生难以解释和调试的“黑盒”模型。在这项工作中,我们介绍了 GRACE(生成奖励作为 CodE),这是一种在进化搜索中使用大型语言模型来直接从专家轨迹逆向工程可解释的、基于代码的奖励函数的方法。由此产生的奖励函数是可以检查和验证的可执行代码。我们在 BabyAI 和 AndroidWorld 基准上凭经验验证 GRACE,它可以有效地学习……
Why my 2026 fitness resolution is all about getting mobile
在去年的新年决心取得成功后,健康记者 Grace Wade 为 2026 年制定了宏伟计划 - 以及支持这些计划的科学