预训练技术使基础模型(如 BERT、T5、GPT)在自然语言处理 (NLP) 和涉及文本、音频和视觉内容的多模态任务中取得了显著成功。一些最新的多模态生成模型,如 DALL·E 和 Stable Diffusion,可以从文本或视频输入中合成新颖的视觉内容,从而大大增强了内容创作者的创造力和生产力。然而,多模态 AI 也面临一些挑战,例如添加新模态或处理需要超出其理解范围的信号的多样化任务。因此,多模态 AI 的一个新趋势是构建一个将现有基础模型与外部模块和工具连接起来的组合 AI 系统。这样,系统可以通过利用不同的模态和信号来执行更多样化的任务。在本文中,我们将简要概述最先进的多模态 AI 技术以及构建组合 AI 系统的方向。我们还将讨论多模态 AI 中潜在的未来研究主题。