PORTool:使用奖励树进行重要性感知策略优化,用于多工具集成推理

多工具集成推理使 LLM 授权的工具使用代理能够通过将自然语言推理与对外部工具的调用交错来解决复杂的任务。然而,使用仅结果奖励来训练此类代理会受到信用分配模糊性的影响,从而模糊了哪些中间步骤(或工具使用决策)会导致成功或失败。在本文中,我们提出了 PORTool,这是一种重要性感知的策略优化算法,可以通过结果级别的监督来增强代理的工具使用能力,同时在步骤级别上分配奖励。具体来说,PORTool 会产生奖励......

来源:Apple机器学习研究

多工具集成推理使 LLM 授权的工具使用代理能够通过将自然语言推理与对外部工具的调用交错来解决复杂的任务。然而,使用仅结果奖励来训练此类代理会受到信用分配模糊性的影响,从而模糊了哪些中间步骤(或工具使用决策)会导致成功或失败。在本文中,我们提出了 PORTool,这是一种重要性感知的策略优化算法,可以通过结果级别的监督来增强代理的工具使用能力,同时在步骤级别上分配奖励。具体来说,PORTool 会生成奖励性推出树,其中轨迹在分支之前共享前缀,从而能够在同一上下文中直接比较替代工具使用决策。然后,它通过正确性主导信号(即该步骤的后代是否最终能够产生正确的最终答案)以及指示该步骤的工具调用是否成功执行的辅助项来估计每个步骤的重要性。使用这些逐步的重要性估计,PORTool 更新策略以生成有效的工具调用步骤,并以每个分支决策中的局部比较和整个轨迹的整体质量为指导。实验表明,与最先进的基线相比,PORTool 提高了最终答案的准确性,同时减少了工具调用步骤,并且消融研究证实了所提出的逐步重要性估计的稳健性。

  • † 普渡大学
  • ** 在 Apple 期间完成的工作