获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
大语言模型(LLM)可以调用各种工具和API来完成复杂的任务。作为最强大和最通用的工具,计算机可能会由训练有素的LLM代理控制。由计算机提供动力,我们可以希望建立一个更广泛的代理,以帮助人类进行各种日常数字作品。在本文中,我们为视觉语言模型(VLM)代理构建了一个环境,以与真实的compoter屏幕交互。在此环境中,代理可以通过输出鼠标和键盘操作来观察屏幕截图并操纵图形用户界面(GUI)。我们还设计了一个自动控制管道,其中包括计划,表演和反映阶段,指导代理商与环境不断互动并完成多步骤任务。此外,我们构建了Screena-Gent数据集,该数据集在完成每日计算机任务时会收集屏幕截图和计算序列。最后,我们培训了一个模型,即Crabitagent,该模型可以达到与GPT-4V的可比计算机控制能力,并展示了更精确的UI定位功能。我们的尝试可以进一步研究建立通才LLM代理商。代码和更详细的信息在https://github.com/niuzaisheng/screenagent上。