屏幕用户界面(UIS)和信息图表,分享类似的视觉语言和设计原则,在人类通信和人机互动中起重要作用。我们介绍了Screenai,这是一个专门研究UI和信息图表理解的视觉语言模型。我们的模型通过Pix2-Struct的浮雕修补策略改进了Pali体系结构,并通过数据集的独特混合物进行了培训。该混合物的核心是一项新颖的屏幕注释任务,模型必须在其中识别UI元素的类型和位置。我们使用这些文本注释将抄写屏幕屏幕截止到大型语言模型,并通过大规模生成问题索问题(QA),UI导航和摘要培训数据集。我们进行消融研究,以证明这些设计选择的影响。在仅5b个选项中,Screenai在基于UI的和信息图表的任务(乘法DOCVQA,WebSRC和Motif)以及与Simi-lar尺寸的模型相比,在其他基于UI-和信息图表的任务(乘法DOCVQA,WebSRC和Motif)方面取得了新的最先进的结果。最后,我们发布了三个新数据集:一个专注于屏幕注释任务,而两个专注于问题回答的others。
在2023年演奏大型视觉语言模型(LVLM)在AI社区中很流行。但是,相对较大的参数(超过7b)流行的LVLM使训练和部署在消费者GPU上,阻止许多资源有限的研究人员。想象一下在旧的GTX1080TI(我们唯一的游戏卡)上体验当前LVLM的所有功能将有多酷。因此,我们在本报告中介绍了各种大小,而QWEN-1.8B则是基本的“大”语言模型。在Vary Toy中,我们引入了改进的视觉词汇,使该模型不仅具有变化的所有功能,而且还具有更多的一般性。具体来说,我们用由对象检测驱动的正面样本数据代替了自然图像的负面样本,在生成视觉词汇的过程中,更充分地利用了词汇网络的能力,并使其能够有效地编码与自然对象相对应的视觉信息。对于实验,Vary-Toy可以在DOCVQA上获得65.6%的ANL,ChartQA的精度为59.1%,Refcoco的精度为88.1%,MMVET的精度为29%。该代码将在主页上公开可用。