PORTool：使用奖励树进行重要性感知策略优化，用于多工具集成推理 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

PORTool：使用奖励树进行重要性感知策略优化，用于多工具集成推理

2026年5月4日 00:00 33 Comments

来源:Apple机器学习研究

多工具集成推理使 LLM 授权的工具使用代理能够通过将自然语言推理与对外部工具的调用交错来解决复杂的任务。然而，使用仅结果奖励来训练此类代理会受到信用分配模糊性的影响，从而模糊了哪些中间步骤（或工具使用决策）会导致成功或失败。在本文中，我们提出了 PORTool，这是一种重要性感知的策略优化算法，可以通过结果级别的监督来增强代理的工具使用能力，同时在步骤级别上分配奖励。具体来说，PORTool 会生成奖励性推出树，其中轨迹在分支之前共享前缀，从而能够在同一上下文中直接比较替代工具使用决策。然后，它通过正确性主导信号（即该步骤的后代是否最终能够产生正确的最终答案）以及指示该步骤的工具调用是否成功执行的辅助项来估计每个步骤的重要性。使用这些逐步的重要性估计，PORTool 更新策略以生成有效的工具调用步骤，并以每个分支决策中的局部比较和整个轨迹的整体质量为指导。实验表明，与最先进的基线相比，PORTool 提高了最终答案的准确性，同时减少了工具调用步骤，并且消融研究证实了所提出的逐步重要性估计的稳健性。

† 普渡大学

** 在 Apple 期间完成的工作

提出的推理复杂的估计调用工具指导使用先进的完成的提高质量代理的正确性有效的工具的执行的能够授权正确的准确性分配步骤轨迹的重要性逐步的决策最终 PORTool 稳健性

PORTool：使用奖励树进行重要性感知策略优化，用于多工具集成推理

其他外部链接

Tags

XiaoMi-AI