。CC-BY-ND 4.0 国际许可 它是根据作者/资助者提供的,他已授予 medRxiv 永久展示预印本的许可。(未经同行评审认证)
。cc-by-nd 4.0国际许可证是根据作者/资助者提供的,他已授予Medrxiv的许可证,以永久显示预印本。(未通过同行评审认证)
在本文中,我们提出了一个来自非约束设计(UCVTON)任务的新颖的虚拟试验,以实现在输入Human Image上的个性化复合服装的逼真综合。与受特定Inty类型的限制的先前艺术不同,我们的方法允许灵活规范样式(文本或图像)和纹理(完整服装,裁剪部分或纹理补丁)条件。为了应对使用完整的服装图像作为条件时的纠缠挑战,我们开发了两阶段的管道,并明确贬低了样式和质地。在第一阶段,我们构成了人类解析图,反映了输入上所需的样式。在第二阶段,我们根据纹理构图将纹理复合到解析地图区域。代表以前的时尚编辑作品中从未实现的复杂和非平稳纹理,我们首先提出提取层次和平衡的剪辑功能并在VTON中应用编码位置。实验表明,我们的方法能够启用卓越的综合质量和人物。对样式和纹理混合的灵活控制将虚拟的尝试带到在线购物和时装设计的新水平。
随着基于扩散的[12,41]文本到图像生成技术的进步,一系列单条件可控的生成框架(例如ControlNet [58],T2-IADAPTER [30],IP-ADAPTER [57]和INSTANTID [46]和INTSTANTID [46]已经扩展了控制信号的范围,该框架已扩展了从字体提示中扩展了控制信号的范围。它允许用户控制生成的图像的更详尽的方面,例如布局,样式,特征等。这些常规方法是专门为UNET [37]主骨的主干(LDM)[36]设计的,具有专用的控制网络。此外,最近的一些方法,例如Imini-Control [44],将控制信号集成到扩散变压器(DIT)[7,22]体系结构中,它们与LDM中的UNET相比表现出了出色的性能。尽管上述方法达到了有希望的单条件性能,但多条件可控生成的挑战仍未解决。以前的多条件生成方法(例如Uni-Control [34]和Unicontrolnet [59]通常依赖于处理诸如Chany或Depth Maps之类的空间条件,并且无法适应受试者条件,从而导致适用的情况有限。尽管最近提出的CTRL-X [26]具有控制结构和外观,但其性能并不令人满意,并且仅支持有限的条件组合。因此,统一框架需要以多条件生成的方式包含这些生成任务。通过集成多个pre-此外,我们假设许多现有的生成任务可以被视为多条件的一代,例如虚拟试验[5,16],对象插入[3,50],样式传输[14,32,51],空间分配的自定义[19,20,24,26]等该框架应确保与所有输入约束的一致性,包括主题ID保存,空间结构对齐,背景连贯性和样式均匀性。为了实现这一目标,我们提出了Unicombine,这是一个提供多个关键范围的能力和通用框架:首先,我们的框架能够同时处理任何条件组合,包括但不限于文本提示,空间图和下图图像。具体来说,我们引入了一种新颖的条件MMDIT注意机制,并结合了可训练的DeNoisis-Lora模块,以构建无训练和基于培训的版本。
1。引言创建照片现实和动态的人类化身具有广泛的应用,包括虚拟试验,电影和游戏制作,虚拟助手,AR/VR以及远程介绍。传统上,此过程需要培训,这使得普通用户无法访问。最近,基础扩散模型的进步加速了旨在使3D Human Avatar创建民主化的研究工作,从而可以通过文本[16、46、51、88]或图像[39]易于用户控制。早期的3D人头像创作的方法将头发,身体和衣服作为单层表示,因此由于其纠缠的几何形状,很难独立模拟或编辑每个区域。为了解决这一限制,重新制作的工作使用了分层结构来分别反映身体,服装或头发[27,36,82,96]。,这些方法中的许多方法都依赖于nerf [58]等隐性代表来定义服装或毛发地理。尽管隐式表示有助于从基础扩散模型中利用先验知识,但它们在现有模拟器中进行动画挑战,这是由于身体运动而引起的头发和服装的现实运动。结果,这些方法难以生产动画时看起来很现实的化身。因此,出现了一个自然的问题:我们可以设计3D化身生成管道,该管道可以利用图像扩散模型中的丰富的先验知识,同时与现有的模拟管道兼容?解决此问题的关键挑战在于连接当前模拟器和文本驱动的头像生成管道中使用的不同表示。前者通常会重新使用平滑清洁的非紧密网格或特定设计的头发链,其拓扑是可以优化的,并且很难约束。十大的后者采用隐式表示(例如NERF [58]或SDF [83]),尽管它们可通过嘈杂的监督信号来优化来自扩散模型的嘈杂监督信号,但不能轻易地转换为适合模拟的开放网格或发束。为了解决这些问题,我们提出了一个新颖的框架Simavatar,该框架从文本提示中生成了3D人体化身,可以很容易地通过现有的头发和服装模拟器来动画。关键思想是为不同的人类部位(例如头发,身体和服装)采用合适的代表,并利用图像扩散模型和模拟器的先验知识。为此,我们提出了使用头发束代表人头发,身体和饰物的几何形状,参数身体模型SMPL [55],