UI-JEPA:通过屏幕上的用户活动主动感知用户意图

从一系列用户界面 (UI) 操作中生成用户意图是全面理解 UI 的核心挑战。多模态大型语言模型 (MLLM) 的最新进展已导致该领域取得了实质性进展,但它们对大量模型参数、计算能力和高延迟的要求使其不适用于需要轻量级、低延迟或高度隐私的设备解决方案的场景。此外,缺乏高质量的数据集阻碍了此类轻量级模型的开发。为了应对这些挑战,我们提出了 UI-JEPA,一种……

来源:Apple机器学习研究

从一系列用户界面(UI)操作中生成用户意图是综合UI理解中的核心挑战。多模式大语言模型(MLLM)的最新进展导致了这一领域的重大进展,但是他们对广泛的模型参数,计算能力和高潜伏期的需求使它们对于需要低潜伏期或较低隐私权或更高隐私的情况下的场景不切实际。此外,缺乏高质量的数据集阻碍了这种轻巧模型的发展。为了应对这些挑战,我们提出了UI-JEPA,这是一个新颖的框架,该框架采用掩盖策略,通过自我监督的学习从无标记的数据中学习抽象的UI嵌入,并结合LLM解码器对用户意图预测进行微调。我们还介绍了两个新的UI接地多模式数据集,“野外意图”(IIW)和“ tame Intent”(IIT)(IIT),专为几次射击和零击UI理解任务而设计。 IIW由219个意图类别的1.7K视频组成,而IIT包含10个类别的914个视频。我们为这些数据集建立了第一个基线,表明使用JEPA式目标与LLM解码器结合使用,可以实现用户意图预测,以符合最先进的大型MLLM的性能,但具有显着减少的注释和部署资源。通过意图相似性得分衡量,UI-JEPA的表现分别优于GPT-4 Turbo和Claude 3.5十四行诗,分别在两个数据集中平均为10.0%和7.2%。值得注意的是,UI-JEPA以50.5倍的计算成本和IIW数据集的延迟提高了50.5倍来实现性能。这些结果强调了UI-JEPA的有效性,强调了其轻巧,高性能UI理解的潜力。