计算理解视觉设计的基本结构,例如演示幻灯片和用户界面(UIS),使机器能够为盲人的人解释和描述视觉效果[44,51,72,84],将布局重新制定为新设备[37,38] [37,38],并基于用户能力个性化[20,54,56,77]。但是,构建启用这些功能的基础机器学习模型需要劳动密集型的数据收集和注释,这必须针对每种输入进行。我们提出了一种通过生成和渲染代码生成合成的结构化视觉效果的方法(图1)。我们的方法涉及三个阶段:首先,我们根据设计原理和目标任务创建具有大语言模型(LLM)的设计思想;其次,我们基于这些设计思想来生成标记的声明语言,例如HTML代码,以表示结构化的视觉效果;第三,我们过滤,后处理和渲染代码以生成最终的注释数据集。虽然我们的方法适用于各种类型的结构化视觉效果,但我们将方法应用于缺乏用于计算建模的高质量,公共数据集的两个应用程序域:演示幻灯片和UI屏幕截图。
主要关键词