详细内容或原文请订阅后点击阅览
使用单一视觉语言模型处理多项任务
我们推出了 Flamingo,这是一种单一的视觉语言模型 (VLM),它在广泛的开放式多模态任务中为少量学习树立了新的领先地位。
来源:DeepMind - 新闻与博客智能的一个关键方面是能够在给出简短指令后快速学习如何执行新任务。例如,孩子在看到书中的几张动物图片后,可能会认出动物园里的真实动物,尽管两者之间存在差异。但是,对于典型的视觉模型来说,要学习一项新任务,必须对专门为该任务标记的数万个示例进行训练。如果目标是计算和识别图像中的动物,例如“三只斑马”,则必须收集数千张图像,并在每张图像上标注其数量和种类。这个过程效率低下、成本高昂且资源密集,需要大量带注释的数据,并且每次面对新任务时都需要训练新模型。作为 DeepMind 解决智能任务的一部分,我们探索了是否有替代模型可以在仅提供有限的任务特定信息的情况下使这个过程更容易、更高效。
今天,在我们论文的预印本中,我们介绍了 Flamingo,这是一种单一视觉语言模型 (VLM),它在广泛的开放式多模态任务中为少样本学习树立了新的领先地位。这意味着 Flamingo 只需少量特定于任务的示例(“少量样本”)即可解决许多难题,而无需任何额外的训练。Flamingo 的简单界面使这成为可能,它将由交错的图像、视频和文本组成的提示作为输入,然后输出相关语言。
论文 Flamingo,与大型语言模型 (LLM) 的行为类似,后者可以通过处理文本提示中的任务示例来解决语言任务,Flamingo 的视觉和文本界面可以引导模型解决多模态任务。给定几个在 Flamingo 提示中编写的视觉输入和预期文本响应的示例对,可以使用新图像或视频向模型提出问题,然后生成答案。
大型语言模型 龙猫