详细内容或原文请订阅后点击阅览
Ferret-UI:基于多模式法学硕士 (LLM) 的扎实移动 UI 理解
多模态大型语言模型 (MLLM) 的最新进展值得关注,然而,这些通用领域的 MLLM 往往在理解用户界面 (UI) 屏幕和与用户界面 (UI) 屏幕有效交互的能力方面存在不足。在本文中,我们介绍了 Ferret-UI,这是一种专为增强对移动 UI 屏幕的理解而量身定制的新型 MLLM,具有引用、基础和推理功能。鉴于 UI 屏幕通常具有比自然图像更长的纵横比,并且包含较小的感兴趣对象(例如图标、文本),我们在 Ferret 之上加入了“任何分辨率”以……
来源:Apple机器学习研究多模式大语言模型(MLLM)的最新进步已经值得注意的是,这些通用域MLLM通常在理解和有效与用户界面(UI)屏幕有效互动的能力上缺乏。在本文中,我们介绍了一种量身定制的新型MLLM,旨在增强对移动UI屏幕的理解,配备有参考,接地和推理功能。鉴于UI屏幕通常表现出更伸长的纵横比,并且包含比自然图像相比感兴趣的较小对象(例如图标,文本),因此我们在雪貂顶上结合了任何分辨率,以放大细节并利用增强的视觉特征。具体而言,每个屏幕都根据原始纵横比(即,肖像屏幕的水平除法和景观屏幕的垂直划分)将每个屏幕分为2个子图像。在发送到LLMS之前,将两个子图像分别编码。我们精心收集了来自各种基础UI任务的培训样本,例如图标识别,查找文本和小部件列表。这些样品的格式是用于遵循区域注释的指导,以促进精确的参考和接地。为了增强模型的推理能力,我们进一步编译了一个用于高级任务的数据集,包括详细说明,感知/交互对话和功能推断。在经过策划的数据集进行培训后,雪貂UI对UI屏幕表现出了出色的理解和执行开放式说明的能力。对于模型评估,我们建立了一个综合的基准,涵盖了上述所有任务。 Ferret-UI不仅超出了大多数开源UI MLLM,而且在所有基本UI任务上都超过了GPT-4V。