Loading...
机构名称:
¥ 1.0

我们提出了指示插道,这是一个将计算机视觉任务与Human指令保持一致的统一且通用的框架。与现有的方法相比,将先验知识整合并预先定义了每个视觉任务的输出空间(例如,构想和坐标),我们将各种视觉任务施加到人类直觉的图像操纵程序中,其输出空间是一个灵活的交互式像素空间。具体而言,该模型是建立在扩散过程的基础上的,并经过培训可以根据用户说明进行预测像素,例如将男人的左肩围绕红色或左右涂上蓝色面具。指示示例可以处理各种视觉任务,包括未识别任务(例如分割和关键点)和生成任务(例如编辑和增强)和在新颖数据集中胜过先前的方法。这代表了朝着视觉任务的通才建模界面迈出的坚实一步,在计算机视觉领域中推进了人工通用的intel。

视觉任务的通才建模界面

视觉任务的通才建模界面PDF文件第1页

视觉任务的通才建模界面PDF文件第2页

视觉任务的通才建模界面PDF文件第3页

视觉任务的通才建模界面PDF文件第4页

视觉任务的通才建模界面PDF文件第5页