详细内容或原文请订阅后点击阅览
视觉语言模型:面向多模态深度学习
回顾最先进的视觉语言模型,例如 CLIP、DALLE、ALIGN 和 SimVL
来源:AI夏令营多模态学习是指使用同一模型从不同类型的模态中学习表示的过程。不同的模态具有不同的统计特性。在机器学习的背景下,输入模态包括图像、文本、音频等。在本文中,我们将仅讨论图像和文本作为输入,并了解如何构建视觉语言 (VL) 模型。
使用同一模型从不同类型的模态中学习表示视觉语言任务
近年来,视觉语言模型因其潜在应用数量众多而广受欢迎。我们可以粗略地将它们分为 3 个不同的领域。让我们探索它们及其子类别。
生成任务
- 视觉问答 (VQA) 是指根据视觉输入(图像或视频)提供问题答案的过程。视觉字幕 (VC) 为给定的视觉输入生成描述。视觉常识推理 (VCR) 根据视觉输入推断常识信息和认知理解。视觉生成 (VG) 从文本输入生成视觉输出,如图所示。
视觉问答 (VQA) 是指根据视觉输入(图像或视频)提供问题答案的过程。
视觉问答 (VQA)视觉字幕 (VC) 为给定的视觉输入生成描述。
视觉字幕 (VC)视觉常识推理 (VCR) 根据视觉输入推断常识信息和认知理解。
视觉常识推理 (VCR)