我们考虑通过文本指导将几何细节添加到3D对象网格的问题。文本到3D生成建模已成功应用于计算机视觉[Poole等。2023;张等。2024],计算机图形[Khalid等。2022]和地理处理[Gao等。2023; Xu等。2024]应用。这些方法着重于直接从文本中生成3D网格[Poole等。2023; Wang等。2023]没有为用户提供控制输出形状粗糙结构的能力,从而限制了需要仔细控制生成过程的艺术家的实际实用性。其他方法着重于生成3D网格的纹理[Cao等。2023;理查森等。2023],但它们在几何形状上没有执行任何变化。虽然有一些方法[Gao等。2023; Metzer等。2023]向用户提供控制并能够修改给定形状的几何形状,这些方法通常很慢,因为它们依赖于昂贵的得分蒸馏采样[Poole等。2023]。在本文中,我们提出了一种创建3D对象与丰富几何细节的方法,同时允许用户保留对全局形状结构(通过输入粗网格)和本地几何细节(通过输入文本提示)的控制。随着文本引导的生成方法的最新成功[Metzer等。2023; Poole等。2023;理查森等。2023; Wang等。2024;张等。2023],我们在大型预训练的文本对图模型上构建了我们的方法[Rombach等。2022]并使用语言指导几何细节的生成。我们的公式不需要配对的粗几何图和细几何训练数据,而是使用大型预训练的文本对图像模型作为监督,以指导通过可区分的渲染器添加几何细节的过程。我们的主要见解源于以下事实:训练以深度信息指导的文本对图像生成的模型[Mou等。2023]最终创建包含其他几何提示的图像。如图2所示,这些提示是如此突出,即使是现成的正常估计模型也可以提取它们。即,即使小鼠图像仅从三个球体产生,其正常估计(最右图像)显示了与描绘眼睛,鼻子和耳朵的表面相对应的正态。但是,此过程只能从单个角度创建可见的细节,而我们希望将细节添加到给定形状的整个可见表面。我们的方法在三个阶段中将几何详细信息添加到输入网格中。第一阶段基于输入文本提示和输入粗网格生成单视RGB图像。此RGB图像可以看作是如何将其添加到输入网格的几何详细信息的预览。第二阶段根据第一阶段和输入粗网格的单视输出进行多视图生成。第三阶段根据第二阶段的多视图生成来完善输入网格的几何细节。由于每个阶段的输出是非提交的,人类可理解的图像或效果图,因此此属性允许在完成之前的早期瞬间,以便用户决定更改参数或返回并更改/修改输入。此外,前两个阶段仅涉及运行预训练网络的推断,最后阶段直接在网格上运行。每个阶段都可以在几秒钟内完成,因此允许我们的方法用于支持
主要关键词