AppWorld关键词检索结果

面向长视界交互式 LLM 代理的强化学习

Reinforcement Learning for Long-Horizon Interactive LLM Agents

交互式数字代理 (IDA) 利用有状态数字环境的 API 来响应用户请求执行任务。虽然由指令调整的大型语言模型 (LLM) 驱动的 IDA 可以对多步骤交换中接口调用的反馈做出反应,但它们尚未在各自的数字环境中接受过训练。之前的方法在 AppWorld 等复杂的基准测试中完成的任务不到一半。我们提出了一种强化学习 (RL) 方法,可直接在目标环境中训练 IDA。我们将这种训练形式化为部分可观察的马尔可夫模型……