屏幕用户界面(UIS)和信息图表,分享类似的视觉语言和设计原则,在人类通信和人机互动中起重要作用。我们介绍了Screenai,这是一个专门研究UI和信息图表理解的视觉语言模型。我们的模型通过Pix2-Struct的浮雕修补策略改进了Pali体系结构,并通过数据集的独特混合物进行了培训。该混合物的核心是一项新颖的屏幕注释任务,模型必须在其中识别UI元素的类型和位置。我们使用这些文本注释将抄写屏幕屏幕截止到大型语言模型,并通过大规模生成问题索问题(QA),UI导航和摘要培训数据集。我们进行消融研究,以证明这些设计选择的影响。在仅5b个选项中,Screenai在基于UI的和信息图表的任务(乘法DOCVQA,WebSRC和Motif)以及与Simi-lar尺寸的模型相比,在其他基于UI-和信息图表的任务(乘法DOCVQA,WebSRC和Motif)方面取得了新的最先进的结果。最后,我们发布了三个新数据集:一个专注于屏幕注释任务,而两个专注于问题回答的others。
主要关键词