多模式大语言模型(MLLM)的最新进展已导致在开发GUI代理的一般任务(例如Web浏览和移动电话使用)方面取得了很大的进步。但是,它们在专业域中的应用仍未得到探索。这些专业的工作流程为GUI感知模型引入了独特的Challenges,包括高分辨率显示器,较小的目标尺寸和复杂的环境。在本文中,我们介绍了ScreenSpot-Pro,这是一种新的基准测试,旨在严格评估高分辨率实行设置中MLLM的接地能力。基准包括来自带有专家宣传的专业领域的真实高分辨率图像。它涵盖了五个行业和三个操作系统的23个应用程序。iSting GUI接地模型在此数据集上的性能较差,最佳模型仅达到18.9%。我们的实验表明,从策略上降低搜索区域会提高准确性。基于这种见解,我们提出了Screenseeker,这是一种视觉搜索方法,它可以使强大计划者的GUI知识指导级联的搜索,并以48.1%的速度实现了最先进的性能,而无需进行任何附加培训。我们希望我们的基准和发现能够推动GUI代理的专业应用开发。
主要关键词