使用 SWE-Gym 培训软件工程代理和验证员

我们推出了 SWE-Gym,这是第一个用于培训现实世界软件工程 (SWE) 代理的环境。 SWE-Gym 包含 2,438 个真实的 Python 任务实例,每个实例都包含一个具有可执行运行时环境、单元测试和以自然语言指定的任务的代码库。我们使用 SWE-Gym 来训练基于语言模型的 SWE 代理,在流行的 SWE-Bench Verified 和 Lite 测试集上实现了高达 19% 的解决率绝对增益。我们还通过在 SWE-Gym 采样的代理轨迹上训练的验证器来实验推理时间缩放。与我们经过微调的 SWE 结合使用...

来源:Apple机器学习研究

我们推出了 SWE-Gym,这是第一个用于培训现实世界软件工程 (SWE) 代理的环境。 SWE-Gym 包含 2,438 个真实的 Python 任务实例,每个实例都包含一个具有可执行运行时环境、单元测试和以自然语言指定的任务的代码库。我们使用 SWE-Gym 来训练基于语言模型的 SWE 代理,在流行的 SWE-Bench Verified 和 Lite 测试集上实现了高达 19% 的解决率绝对增益。我们还通过在 SWE-Gym 采样的代理轨迹上训练的验证器来实验推理时间缩放。与我们经过微调的 SWE 代理相结合,我们在 SWE-Bench Verified 和 Lite 上分别实现了 32.0% 和 26.0%,反映了开放式 SWE 代理的最新技术水平。为了便于进一步研究,我们公开发布了 SWE-Gym、模型和智能体轨迹。

    * 同等贡献† 加州大学伯克利分校‡ 在 Apple 期间完成的工作§ 伊利诺伊大学厄巴纳-香槟分校¶ 卡内基梅隆大学
  • * 同等贡献
  • † 加州大学伯克利分校
  • ‡ 在 Apple 期间完成的工作
  • § 伊利诺伊大学厄巴纳-香槟分校
  • ¶ 卡内基梅隆大学