详细内容或原文请订阅后点击阅览
雪貂 - UI 2:掌握跨平台的通用用户界面理解
建立用于用户界面(UI)理解的通才模型,这是由于各种基础问题(例如平台多样性,解决方案变化和数据限制)而具有挑战性的。在本文中,我们介绍了雪貂UI 2,这是一种多模式大语言模型(MLLM),旨在跨越包括iPhone,Android,Android,iPad,WebPage和AppleTV在内的广泛平台上的通用UI理解。 Ferret-UI 2以雪貂UI的基础为基础,引入了三个关键创新:对多种平台类型的支持,通过自适应缩放和高级任务的高分辨率感知……
来源:Apple机器学习研究由于平台多样性、分辨率变化和数据限制等各种基础问题,构建用户界面 (UI) 理解的通才模型具有挑战性。在本文中,我们介绍了 Ferret-UI 2,这是一种多模态大语言模型 (MLLM),旨在跨各种平台(包括 iPhone、Android、iPad、网页和 AppleTV)进行通用 UI 理解。 Ferret-UI 2 建立在 Ferret-UI 的基础上,引入了三项关键创新:支持多种平台类型、通过自适应缩放实现高分辨率感知,以及由 GPT-4o 提供支持并具有标记集视觉提示的高级任务训练数据生成。这些进步使 Ferret-UI 2 能够执行复杂的、以用户为中心的交互,使其具有高度通用性,并且能够适应平台生态系统不断扩大的多样性。针对参考、接地、以用户为中心的高级任务(包含 9 个子任务 ×\time× 5 个平台)、GUIDE 下一步行动预测数据集和 GUI-World 多平台基准的大量实证实验表明,Ferret-UI One 显着优于 Ferret-UI,并且还显示出强大的跨平台传输能力。
×\次× ×\次