断开连接领域信息情报检索---XiaoMi-AI

2026年5月1日 00:00

强化代理：工具调用代理的推理时间反馈

Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents

本文被 ACL 2026 第五届自然语言生成、评估和指标研讨会接受。工具调用代理在工具选择、参数准确性和范围识别方面进行评估，但 LLM 轨迹评估本质上仍然是事后评估。与活动执行循环断开连接，此类评估可以识别通常通过即时调整或重新训练来解决的错误，并且从根本上无法实时纠正代理。为了弥补这一差距，我们在推理时将评估转移到执行循环中：专门的审阅代理评估......

断开连接关键词检索结果

强化代理：工具调用代理的推理时间反馈