强化代理:工具调用代理的推理时间反馈

本文被 ACL 2026 第五届自然语言生成、评估和指标研讨会接受。工具调用代理在工具选择、参数准确性和范围识别方面进行评估,但 LLM 轨迹评估本质上仍然是事后评估。与活动执行循环断开连接,此类评估可以识别通常通过即时调整或重新训练来解决的错误,并且从根本上无法实时纠正代理。为了弥补这一差距,我们在推理时将评估转移到执行循环中:专门的审阅代理评估......

来源:Apple机器学习研究

本文被 ACL 2026 第五届自然语言生成、评估和度量研讨会接受。

工具调用代理根据工具选择、参数准确性和范围识别进行评估,但 LLM 轨迹评估本质上仍然是事后评估。与活动执行循环断开连接,此类评估可以识别通常通过即时调整或重新训练来解决的错误,并且从根本上无法实时纠正代理。为了弥补这一差距,我们在推理时将评估转移到执行循环中:专门的审查代理在执行之前评估临时工具调用,将范式从事后恢复转变为主动评估和错误缓解。

在实践中,该架构在主要执行代理和辅助审核代理之间建立了明确的关注点分离。与任何多智能体系统一样,审阅者可以在纠正其他错误的同时引入新的错误,但据我们所知,之前的工作还没有系统地衡量这种权衡。为了量化这种权衡,我们引入了有用性-有害性指标:有用性衡量反馈纠正的基本代理错误的百分比;危害性衡量的是反馈降低的正确反应的百分比。这些指标通过揭示给定模型或提示是否提供净正值,直接为审阅者设计提供信息。

我们在 BFCL(单轮)和 τ2-Bench(多轮状态场景)上评估我们的方法,在不相关性检测上实现 +5.5%,在多轮任务上实现 +7.1%。我们的指标显示,审阅者模型的选择至关重要:推理模型 o3-mini 实现了 3:1 的收益风险比,而 GPT-4o 的收益风险比为 2.1:1。通过 GEPA 的自动提示优化可提供额外的 +1.5–2.8%。总之,这些结果证明了分离执行和审查的核心优势:可以通过模型选择和提示优化来系统地改进审查者,而无需重新训练基础代理。