黑盒关键词检索结果

决策的高效校准

Efficient Calibration for Decision Making

完美校准的决策理论特征是,寻求最小化期望的适当损失的代理无法通过后处理完美校准的预测器来改善其结果。 Hu 和 Wu (FOCS’24) 使用它来定义称为校准决策损失 (CDL) 的近似校准测量,它测量任何后处理相对于任何适当损失可实现的最大改进。不幸的是,事实证明,由于对预测和标签的黑盒访问,CDL 在离线环境中甚至很难进行弱近似。我们建议绕过这个......

GRACE:可解释逆强化学习的语言模型框架

GRACE: A Language Model Framework for Explainable Inverse Reinforcement Learning

逆强化学习旨在从专家演示中恢复奖励模型,但传统方法会产生难以解释和调试的“黑盒”模型。在这项工作中,我们介绍了 GRACE(生成奖励作为 CodE),这是一种在进化搜索中使用大型语言模型来直接从专家轨迹逆向工程可解释的、基于代码的奖励函数的方法。由此产生的奖励函数是可以检查和验证的可执行代码。我们在 BabyAI 和 AndroidWorld 基准上凭经验验证 GRACE,它可以有效地学习……