摘要 - 大型模式生成AI在学术界和行业中都受到了越来越多的关注。尤其是,两个主要的技术家族是:i)多模式大语言模型(MLLM),例如GPT-4V,它显示出具有多模式理解的不断增强的能力; ii)诸如Sora之类的扩散模型表现出显着的多模式力量,尤其是在视觉产生方面。因此,出现了一个自然的问题:是否有可能同时拥有一个统一的模型来理解和产生?为了回答这个问题,在本文中,我们首先提供了MLLM和扩散模型的详细审查,包括其概率建模程序,多模式体系结构设计以及对图像/视频大型语言模型以及文本到图像到图像/视频/视频的高级应用程序。然后,我们讨论了统一模型的两个重要问题:i)统一模型是否应采用自动回归或扩散概率建模,ii)ii)ii)该模型是否应利用密集的体系结构或专家(MOE)架构的混合来更好地支持生成和理解,这是两个目标。我们进一步提供了建立统一模型并分析其潜在优势和缺点的几种可能策略。我们还总结了现有的大规模多模式数据集,以便将来更好地预测模型。为了结束本文,我们提出了几个挑战的未来方向,我们认为这可以为多态生成AI的持续发展做出贡献。
主要关键词