通过探索扩展代理的综合任务生成

用于构建交互式代理的训练后多模式大型语言模型 (MLLM) 在计算机使用、网络导航和机器人等领域具有广阔的前景。扩展此类后期训练的一个关键挑战是缺乏高质量的下游代理任务数据集,这些数据集的任务是多样化的、可行的和可验证的。现有的任务生成方法严重依赖人工注释或用有限的下游环境信息提示 MLLM,这种方法要么成本高昂,要么可扩展性差,因为它生成的任务覆盖范围有限。为了解决这个问题,我们推出了自动播放,一个可扩展的......

来源:Apple机器学习研究

用于构建交互式代理的训练后多模式大型语言模型 (MLLM) 在计算机使用、网络导航和机器人等领域具有广阔的前景。扩展此类后期训练的一个关键挑战是缺乏高质量的下游代理任务数据集,这些数据集的任务是多样化的、可行的和可验证的。现有的任务生成方法严重依赖人工注释或用有限的下游环境信息提示 MLLM,这种方法要么成本高昂,要么可扩展性差,因为它生成的任务覆盖范围有限。为了解决这个问题,我们提出了 AutoPlay,这是一种用于任务生成的可扩展管道,它显式地探索交互环境以发现可能的交互和当前状态信息,以合成基于环境的任务。自动播放分两个阶段运行:(i) 探索阶段,MLLM 探索代理系统地发现新的环境状态和功能;(ii) 任务生成阶段,其中任务生成器利用探索轨迹和一组任务指南提示作为上下文来合成各种、可执行且可验证的任务。我们展示了 AutoPlay 在 20 个 Android 应用程序中生成了 20k 个任务,在 13 个 Ubuntu 应用程序中生成了 10k 个任务,以训练移动使用和计算机使用的代理。自动播放生成的任务通过采用 MLLM 任务执行器和验证器,无需人工注释即可实现大规模任务演示合成。这些数据支持训练基于 MLLM 的 UI 代理,将移动使用场景的成功率提高高达 20.0%,将计算机使用场景的成功率提高 10.9%。此外,自动播放生成的任务与基于 MLLM 验证者的奖励相结合,可以扩展 UI 代理的强化学习训练,从而带来 5.7% 的额外增益。覆盖范围。这些结果表明 AutoPlay 是一种可扩展的方法,适用于训练后的 MLLM 代理,减少对人工注释的依赖。

  • ** 在 Apple 期间完成的工作