视觉语言模型:面向多模态深度学习

回顾最先进的视觉语言模型,例如 CLIP、DALLE、ALIGN 和 SimVL

来源:AI夏令营

多模态学习是指使用同一模型从不同类型的模态中学习表示的过程。不同的模态具有不同的统计特性。在机器学习的背景下,输入模态包括图像、文本、音频等。在本文中,我们将仅讨论图像和文本作为输入,并了解如何构建视觉语言 (VL) 模型。

使用同一模型从不同类型的模态中学习表示

视觉语言任务

近年来,视觉语言模型因其潜在应用数量众多而广受欢迎。我们可以粗略地将它们分为 3 个不同的领域。让我们探索它们及其子类别。

生成任务

    视觉问答 (VQA) 是指根据视觉输入(图像或视频)提供问题答案的过程。视觉字幕 (VC) 为给定的视觉输入生成描述。视觉常识推理 (VCR) 根据视觉输入推断常识信息和认知理解。视觉生成 (VG) 从文本输入生成视觉输出,如图所示。
  • 视觉问答 (VQA) 是指根据视觉输入(图像或视频)提供问题答案的过程。
  • 视觉问答 (VQA) 是指根据视觉输入(图像或视频)提供问题答案的过程。

    视觉问答 (VQA)
  • 视觉字幕 (VC) 为给定的视觉输入生成描述。
  • 视觉字幕 (VC) 为给定的视觉输入生成描述。

    视觉字幕 (VC)
  • 视觉常识推理 (VCR) 根据视觉输入推断常识信息和认知理解。
  • 视觉常识推理 (VCR) 根据视觉输入推断常识信息和认知理解。

    视觉常识推理 (VCR)
  • 视觉生成 (VG) 根据文本输入生成视觉输出,如图所示。
  • 视觉生成 (VG) BERT 绿色