shapellm-oomni旨在理解和生成3D内容

Shapellm-oomni是一种全新的多模式AI模型,不仅可以理解和生成文本和图像,还可以生成3D对象。对于AI世界来说,这是向前迈出的一大步,在该世界中,诸如GPT-4O之类的模型仅限于二维媒体。 Shapellm-oomni旨在理解,生成和编辑3D资源,并可以将这些[…] Shapellm-oomni的帖子结合起来,旨在理解和生成3D内容,首先出现在AI新闻中。

来源:AI新闻
shapellm-oomni是一种新的3D本地大语言模型,可以以任何顺序理解和生成3D资产和文本。 3D图像文本和3D通过文本指令编辑。Shapellm-oomni是一种全新的多模式AI模型,不仅可以理解和生成文本和图像,还可以生成3D对象。对于AI世界来说,这是向前迈出的一大步,在该世界中,诸如GPT-4O之类的模型仅限于二维媒体。 Shapellm-Oumni旨在理解,生成和编辑3D资源,并可以按任何顺序将它们与文本和图像结合在一起。模型如何工作? Shapellm-Oumni的核心是高级3D矢量定量自动编码器(VQVAE)。该组件将3D对象(例如网格模型)转换为谨慎的令牌序列,该序列允许模型以与文本或图像相同的方式处理3D数据。该模型使用基于Voxable的表示(64³VoxelGrid),该表示将其压缩到不那么潜在的表示(16³),然后随后。然后,语言模型将这些令牌用于生成,理解和编辑3D内容。为了训练该模型,研究人员建立了一个名为3D-Alpaca的巨大数据集,拥有700,000多个高质量的3D资源以及数百万个文本到3D,图片到3D-3D,3D-TILL和3D-TILL和3D-TILL和3DSTIGI MULTIMOPAL LLM的示例,可用于3D生成和理解GiThub-Side官方研究网站官方研究官方研究
  • shapellm-oomni是一种新的3D本地大语言模型,可以以任何顺序理解和生成3D资产和文本。
  • 该模型基于QWEN2.5-VL的多模式容量,并将其能力扩展到3D域。
  • 模型如何工作?

    更多信息:

  • shapellm-oomni:3D生成和理解的本机多模式LLM