详细内容或原文请订阅后点击阅览
面向长视界交互式 LLM 代理的强化学习
交互式数字代理 (IDA) 利用有状态数字环境的 API 来响应用户请求执行任务。虽然由指令调整的大型语言模型 (LLM) 驱动的 IDA 可以对多步骤交换中接口调用的反馈做出反应,但它们尚未在各自的数字环境中接受过训练。之前的方法在 AppWorld 等复杂的基准测试中完成的任务不到一半。我们提出了一种强化学习 (RL) 方法,可直接在目标环境中训练 IDA。我们将这种训练形式化为部分可观察的马尔可夫模型……
来源:Apple机器学习研究交互式数字代理 (IDA) 利用有状态数字环境的 API 来执行任务以响应用户请求。虽然由指令调整的大型语言模型 (LLM) 驱动的 IDA 可以对多步骤交换中接口调用的反馈做出反应,但它们尚未在各自的数字环境中进行训练。之前的方法在 AppWorld 等复杂基准中完成的任务不到一半。我们提出了一种强化学习 (RL) 方法,可直接在目标环境中训练 IDA。我们将这种训练形式化为部分可观察的马尔可夫决策过程,并派生出 LOOP,这是一种数据和内存高效的近端策略优化变体。LOOP 不使用价值网络,并在内存中保留底层 LLM 的确切副本,使其实现简单且内存效率与微调单个 LLM 一样高。在 AppWorld 环境中使用 LOOP 训练的 320 亿参数代理比规模大得多的 OpenAI o1 代理高出 9 个百分点(相对 15%)。据我们所知,这是首次报道将 RL 应用于通过直接 API 调用与有状态、多域、多应用环境交互的 IDA。我们的分析揭示了 RL 在这一领域的有效性,表明代理学会了查阅 API 文档、避免不必要的假设、最大限度地减少虚构并从挫折中恢复过来。