PORTool: Importance-Aware Policy Optimization with Rewarded Tree for Multi-Tool-Integrated Reasoning
多工具集成推理使 LLM 授权的工具使用代理能够通过将自然语言推理与对外部工具的调用交错来解决复杂的任务。然而,使用仅结果奖励来训练此类代理会受到信用分配模糊性的影响,从而模糊了哪些中间步骤(或工具使用决策)会导致成功或失败。在本文中,我们提出了 PORTool,这是一种重要性感知的策略优化算法,可以通过结果级别的监督来增强代理的工具使用能力,同时在步骤级别上分配奖励。具体来说,PORTool 会产生奖励......