iLuvui:从机器对话中对UIS的指令调整语言 - 视觉模型

多模式视觉模型(VLMS)从对图像和语言的融合理解中启用了强大的应用程序,由于缺乏UI培训数据,Butmany在UI任务上的表现较差。在本文中,我们通过将现有基于像素的方法与大语言模型(LLM)相结合,以将VLM的配对文本构想数据与UI域生成对UI域。与Plior Art不同,我们的方法不需要人提供的注释,并且可以应用于UI屏幕截图的任何数据集。我们生成了335K的对话示例的adataset,并与涵盖问答的UI配对,UI…

来源:Apple机器学习研究

多模式视觉模型(VLMS)从对图像和语言的融合理解中启用了强大的应用程序,由于缺乏UI培训数据,Butmany在UI任务上的表现较差。在本文中,我们通过将现有基于像素的方法与大语言模型(LLM)相结合,以将VLM的配对文本构想数据与UI域生成对UI域。与Plior Art不同,我们的方法不需要人提供的注释,并且可以应用于UI屏幕截图的任何数据集。我们生成了335K的对话示例与涵盖Q&A,UI说明和计划的UIS的ADATASET,并将其用于对UI任务进行微调分解VLM。为了评估我们的模型的性能,我们将其基于UI元素检测任务,评估质量质量并展示其对多步进UI导航和计划的适用性。

    **在Apple†Aalto University
  • **在Apple
  • †Aalto University