dataset关键词检索结果

iLuvui:从机器对话中对UIS的指令调整语言 - 视觉模型

ILuvUI: Instruction-Tuned Language-Vision Modeling of UIs from Machine Conversations

多模式视觉模型(VLMS)从对图像和语言的融合理解中启用了强大的应用程序,由于缺乏UI培训数据,Butmany在UI任务上的表现较差。在本文中,我们通过将现有基于像素的方法与大语言模型(LLM)相结合,以将VLM的配对文本构想数据与UI域生成对UI域。与Plior Art不同,我们的方法不需要人提供的注释,并且可以应用于UI屏幕截图的任何数据集。我们生成了335K的对话示例的adataset,并与涵盖问答的UI配对,UI…