shapellm-oomni旨在理解和生成3D内容 XiaoMi-AI 科研信息收集

shapellm-oomni是一种新的3D本地大语言模型，可以以任何顺序理解和生成3D资产和文本。 3D图像文本和3D通过文本指令编辑。Shapellm-oomni是一种全新的多模式AI模型，不仅可以理解和生成文本和图像，还可以生成3D对象。对于AI世界来说，这是向前迈出的一大步，在该世界中，诸如GPT-4O之类的模型仅限于二维媒体。 Shapellm-Oumni旨在理解，生成和编辑3D资源，并可以按任何顺序将它们与文本和图像结合在一起。模型如何工作？ Shapellm-Oumni的核心是高级3D矢量定量自动编码器（VQVAE）。该组件将3D对象（例如网格模型）转换为谨慎的令牌序列，该序列允许模型以与文本或图像相同的方式处理3D数据。该模型使用基于Voxable的表示（64³VoxelGrid），该表示将其压缩到不那么潜在的表示（16³），然后随后。然后，语言模型将这些令牌用于生成，理解和编辑3D内容。为了训练该模型，研究人员建立了一个名为3D-Alpaca的巨大数据集，拥有700,000多个高质量的3D资源以及数百万个文本到3D，图片到3D-3D，3D-TILL和3D-TILL和3D-TILL和3DSTIGI MULTIMOPAL LLM的示例，可用于3D生成和理解GiThub-Side官方研究网站官方研究官方研究

shapellm-oomni旨在理解和生成3D内容

模型如何工作？

其他外部链接

Tags

XiaoMi-AI