详细内容或原文请订阅后点击阅览
Ferret-UI Lite:构建小型设备上 GUI 代理的经验教训
开发与图形用户界面 (GUI) 有效交互的自主代理仍然是一个具有挑战性的开放问题,特别是对于小型设备上模型。在本文中,我们介绍了 Ferret-UI Lite,这是一种紧凑的端到端 GUI 代理,可以跨不同平台(包括移动、Web 和桌面)运行。利用为开发小型模型而优化的技术,我们通过从真实和合成来源中策划多样化的 GUI 数据混合物来构建我们的 3B Ferret-UI Lite 代理,通过思想链推理和可视化工具的使用来增强推理时性能,并且......
来源:Apple机器学习研究开发与图形用户界面 (GUI) 有效交互的自主代理仍然是一个具有挑战性的开放问题,特别是对于小型设备上模型。在本文中,我们介绍了 Ferret-UI Lite,这是一种紧凑的端到端 GUI 代理,可以跨不同平台(包括移动、Web 和桌面)运行。利用针对开发小型模型而优化的技术,我们通过从真实和合成来源策划多样化的 GUI 数据混合物、通过思想链推理和可视化工具使用增强推理时间性能以及通过设计奖励进行强化学习来构建 3B Ferret-UI Lite 代理。 Ferret-UI Lite 的性能与其他小型 GUI 代理相比具有竞争力。在 GUI 基础方面,Ferret-UI Lite 在 ScreenSpot-V2、ScreenSpot-Pro 和 OSWorld-G 基准测试中分别获得了 91.6%、53.3% 和 61.2% 的分数。对于 GUI 导航,Ferret-UI Lite 在 AndroidWorld 上的成功率为 28.0%,在 OSWorld 上的成功率为 19.8%。我们分享开发紧凑型设备上 GUI 代理的方法和经验教训。
