从文本到 3D:NVIDIA 的 Edify 3D 背后的魔力

NVIDIA 的 Edify 3D 使用 AI 在 2 分钟内创建高质量的 3D 模型。通过结合多视图扩散模型和 Transformers,它可以从文本或图像快速、准确且可扩展地生成 3D,使其成为游戏、动画和设计行业的完美解决方案。

来源:Qudata

从文本到 3D:NVIDIA 的 Edify 3D 背后的魔力

视频游戏设计、扩展现实、电影制作和模拟等行业对高质量 3D 资产的需求正在蓬勃发展。然而,制作可用于生产的 3D 内容通常涉及一个复杂且耗时的过程,需要高级技能和工具。解决这些挑战的是 NVIDIA 的 Edify 3D - 一种利用 AI 技术使 3D 资产创建更快、更轻松、更易于访问的解决方案。

NVIDIA 的 Edify 3D

Edify 3D 通过在两分钟内实现高质量资产生成,为 3D 资产创建树立了新的标杆。这个创新平台可以生成具有详细几何形状、干净网格拓扑、UV 映射、4K 分辨率纹理和基于物理的渲染 (PBR) 材料的 3D 模型。无论输入是文本描述还是参考图像,Edify 3D 都可以生成适用于广泛应用的极其精确的 3D 资产。

与传统的文本到 3D 生成方法相比,Edify 3D 不仅在细节和真实感方面提供了卓越的效果,而且在效率和可扩展性方面也表现出色。

Edify 3D 的核心技术利用先进的神经网络,结合扩散模型和 Transformers 来突破 AI 在 3D 资产生成中所能实现的界限。该过程从多视图扩散模型开始,该模型从不同视点合成对象的 RGB 外观和表面法线。然后,这些多视图图像作为基于 Transformer 的重建模型的输入,该模型预测最终 3D 形状的几何形状、纹理和材质。

出于训练目的,Edify 3D 采用逼真的渲染技术从处理后的 3D 形状生成多视图图像。然后使用视觉语言模型为渲染的图像生成描述性标题,用有意义的元数据丰富数据集。

在 arXiv 上的文章中了解有关可扩展高质量 3D 资产生成的更多信息。