随着基于扩散的[12,41]文本到图像生成技术的进步,一系列单条件可控的生成框架(例如ControlNet [58],T2-IADAPTER [30],IP-ADAPTER [57]和INSTANTID [46]和INTSTANTID [46]已经扩展了控制信号的范围,该框架已扩展了从字体提示中扩展了控制信号的范围。它允许用户控制生成的图像的更详尽的方面,例如布局,样式,特征等。这些常规方法是专门为UNET [37]主骨的主干(LDM)[36]设计的,具有专用的控制网络。此外,最近的一些方法,例如Imini-Control [44],将控制信号集成到扩散变压器(DIT)[7,22]体系结构中,它们与LDM中的UNET相比表现出了出色的性能。尽管上述方法达到了有希望的单条件性能,但多条件可控生成的挑战仍未解决。以前的多条件生成方法(例如Uni-Control [34]和Unicontrolnet [59]通常依赖于处理诸如Chany或Depth Maps之类的空间条件,并且无法适应受试者条件,从而导致适用的情况有限。尽管最近提出的CTRL-X [26]具有控制结构和外观,但其性能并不令人满意,并且仅支持有限的条件组合。因此,统一框架需要以多条件生成的方式包含这些生成任务。通过集成多个pre-此外,我们假设许多现有的生成任务可以被视为多条件的一代,例如虚拟试验[5,16],对象插入[3,50],样式传输[14,32,51],空间分配的自定义[19,20,24,26]等该框架应确保与所有输入约束的一致性,包括主题ID保存,空间结构对齐,背景连贯性和样式均匀性。为了实现这一目标,我们提出了Unicombine,这是一个提供多个关键范围的能力和通用框架:首先,我们的框架能够同时处理任何条件组合,包括但不限于文本提示,空间图和下图图像。具体来说,我们引入了一种新颖的条件MMDIT注意机制,并结合了可训练的DeNoisis-Lora模块,以构建无训练和基于培训的版本。
sdxl [Podell等。2023],Ediff-i [Balaji等。2022],dall-e 3 [Betker等。2023];文本到视频基础模型,例如Imagen视频[Ho等。2022]和Make-A-Video [Singer等。2022],Sora [OpenAI 2024]增强了视觉内容编辑和发电的增长。代表性地,例如Animatediff [Guo等人。2023],ControlNet [Zhang等。2023]具有不同用户定义条件的视频创建,并已成为用于图形设计和个性化媒体的实用工具。在忠诚度和效率方面,3D资产产生也有一场革命。收获2D扩散模型的强大先验,例如DreamFusion [Poole等。2022],魔术3D [Lin等。2023],Zero123 [Liu等。2023],Wonder3d [Long等。 2023]被启用了高质量的文本和图像到3D对象生成,具有合理的几何形状和物理属性,以支持它们在游戏和仿真任务中的用法。 同时,高质量的大规模3D数据的出现[Deitke等。 2023a,b; Yu等。 2023]还授权了3D空间中的直接生成模型训练[Hong等。 2023; Xu等。 2023]。 受到3D资产产生成功的启发,场景级别的3D合成也引起了人们的兴趣。 诸如genvs之类的工作[Chan等。 2023],重新灌注[Wu等。 2023]还受益于2D扩散先验,以实现高质量的新型视图综合。 2023],块平面[Xu等。2023],Wonder3d [Long等。2023]被启用了高质量的文本和图像到3D对象生成,具有合理的几何形状和物理属性,以支持它们在游戏和仿真任务中的用法。同时,高质量的大规模3D数据的出现[Deitke等。2023a,b; Yu等。2023]还授权了3D空间中的直接生成模型训练[Hong等。2023; Xu等。2023]。受到3D资产产生成功的启发,场景级别的3D合成也引起了人们的兴趣。诸如genvs之类的工作[Chan等。2023],重新灌注[Wu等。2023]还受益于2D扩散先验,以实现高质量的新型视图综合。2023],块平面[Xu等。工作的另一个分支,例如Assetfield [Xiangli等。2021]将场景视为由布局引导的3D资产的组成,可以用数据驱动的方式对其进行建模,同时保证用户可控性。本课程涵盖了过去几年的生成模型的进步,略微转向生成模型实现的可控性和创造力任务。我们将首先介绍与生成模型相关的基本机器学习和深度学习技术。接下来,我们将展示可控图像,视频和3D内容生成和组成表示学习中的最新代表性工作。最后,我们将在讨论该技术,社会影响和开放研究问题的未来应用的讨论中结束。课程结束后,与会者将学习有关扩散模型的基本知识,以及如何将这些模型应用于不同的应用程序。P.S. 网站:https://cveu.github.io/event/sig2024.html; Twitter:https://twitter.com/cveu_workshopP.S.网站:https://cveu.github.io/event/sig2024.html; Twitter:https://twitter.com/cveu_workshop