多模式大语言模型(MLLM)的最新进展已导致在开发GUI代理的一般任务(例如Web浏览和移动电话使用)方面取得了很大的进步。但是,它们在专业域中的应用仍未得到探索。这些专业的工作流程为GUI感知模型引入了独特的Challenges,包括高分辨率显示器,较小的目标尺寸和复杂的环境。在本文中,我们介绍了ScreenSpot-Pro,这是一种新的基准测试,旨在严格评估高分辨率实行设置中MLLM的接地能力。基准包括来自带有专家宣传的专业领域的真实高分辨率图像。它涵盖了五个行业和三个操作系统的23个应用程序。iSting GUI接地模型在此数据集上的性能较差,最佳模型仅达到18.9%。我们的实验表明,从策略上降低搜索区域会提高准确性。基于这种见解,我们提出了Screenseeker,这是一种视觉搜索方法,它可以使强大计划者的GUI知识指导级联的搜索,并以48.1%的速度实现了最先进的性能,而无需进行任何附加培训。我们希望我们的基准和发现能够推动GUI代理的专业应用开发。
Full Name (Mr / Ms / Dr / Eng): .................................................................................................................................Position: .................................................................................................................................................................... Telephone / Mobile: ..................................................................................................................................................Personal E-Mail: ........................................................................................................................................................ Official E-Mail: ...........................................................................................................................................................
Alexiev,A.,Jansen,J.,Van Den Bosch,F。和Volberda,H。(2011)。 荷兰顶级管理团队战略决策中的行业差异。 in:Killian J. McCarthy,Maya Fiolet,Wilfred Dolfsma Eds。 预览硬币的新公司的性质,超出了组织和机构的界限。 第一版。 切尔滕纳姆:爱德华·埃尔加出版社。Alexiev,A.,Jansen,J.,Van Den Bosch,F。和Volberda,H。(2011)。荷兰顶级管理团队战略决策中的行业差异。in:Killian J. McCarthy,Maya Fiolet,Wilfred Dolfsma Eds。预览硬币的新公司的性质,超出了组织和机构的界限。第一版。 切尔滕纳姆:爱德华·埃尔加出版社。第一版。切尔滕纳姆:爱德华·埃尔加出版社。
Xu-Priour,D.L.,Truong,Y。和Klink,R.R。(2014)。集体主义和多语音时间取向对在线社会互动和购物行为的影响:中国与法国之间的比较研究。技术预测和社会变革,88,pp。265-275。
Borsi,B。和Soós,S。(2019)。映射有关科学局势的创新管理研究 - 正在进行的研究报告。在:XXX ISPIM创新会议论文集 - 庆祝创新 - 自达芬奇以来500年。Lahti:Lappeenranta-Lahti技术大学出版社。
Lichy,J。EtKachour,M。(2019)。大数据感知与用法:微型公司的视角(法国传统餐厅行业的情况)。dans:2019年第三届电子商务,电子商务和电子政务的国际会议论文集。第一版。 计算机协会,pp。 89-94。第一版。计算机协会,pp。89-94。
Song,L。(2016)。 供应链本地化:在中国运营的外国公司的前所未有的战略重音。 in:Kulwant S Pawar,Yu,M.,Zhao,X.,Chandra Lalwani Eds。 通过全球供应链的竞争优势。 第一版。 诺丁汉:诺丁汉大学,pp。 150-155。Song,L。(2016)。供应链本地化:在中国运营的外国公司的前所未有的战略重音。in:Kulwant S Pawar,Yu,M.,Zhao,X.,Chandra Lalwani Eds。通过全球供应链的竞争优势。第一版。 诺丁汉:诺丁汉大学,pp。 150-155。第一版。诺丁汉:诺丁汉大学,pp。150-155。
20。Albi G.,Bertaglia G.,Boscheri W.,Dimarco G.,Pareschi L.,Toscani G.,Zanella M.流行动力学的动力学建模:社交接触,控制不确定的数据和多块空间动力学。 in:预测全球联系的世界中的大流行,第1卷。 通过建模和模拟的多尺度,多学科框架,由Bellomo N.和Chaplain M.编辑,Birkhauser-Springer系列:科学,工程和技术中的建模和模拟,pp。 43–108,2022。 doi:10.1007/978-3-030-96562-4_3Albi G.,Bertaglia G.,Boscheri W.,Dimarco G.,Pareschi L.,Toscani G.,Zanella M.流行动力学的动力学建模:社交接触,控制不确定的数据和多块空间动力学。in:预测全球联系的世界中的大流行,第1卷。通过建模和模拟的多尺度,多学科框架,由Bellomo N.和Chaplain M.编辑,Birkhauser-Springer系列:科学,工程和技术中的建模和模拟,pp。43–108,2022。doi:10.1007/978-3-030-96562-4_3