详细内容或原文请订阅后点击阅览
多模态评估基准概况
探索十个多模态数据集和基准的主要特征,以评估多模态模型的性能。
来源:Clarifai博客 | 实际应用中的人工智能简介
随着大语言模型(LLMS)领域的巨大进步,可以处理多模式输入的模型最近已成为该领域的最前沿。这些模型可以将文本和图像作为输入,有时也可以作为视频或语音等其他方式。
多模型模型在评估中带来了独特的挑战。在此博客文章中,我们将查看一些多式联模数据集,这些数据集可用于评估此类模型的性能,其中大多数是针对视觉问题答案(VQA)的模型,其中需要使用图像中的信息来回答问题。
多模式数据集的景观庞大且不断增长,基准的重点是不同的感知和推理功能,数据源和应用程序。这里的数据集列表绝不是详尽无遗的。我们将简要描述十个多模式数据集和基准测试的关键特征,并概述该空间中的一些关键趋势。
多模式数据集
textvqa
可以评估通才多模型模型的视力语言任务不同。这样的任务之一是光学特征识别(OCR)和基于图像中存在的文本回答问题。一个评估此类能力的数据集是TextVQA,这是Singh等人于2019年发布的数据集。
Singh等。 TextVQA的两个示例(Singh等,2019) Singh等,2019 由于数据集的重点是图像中存在的文本,因此许多图像是广告牌,白板或交通标志之类的东西。总共有28,408张来自OpenImages数据集的图像,与它们相关的45,336个问题,需要阅读和推理图像中的文本。对于每个问题,注释者提供了10个基础真理答案。 openImages docvqa 火车 验证 测试 示例来自docvqa的问答对(Mathew等,2020) Mathew等,2020 ocrbench Liu等。 Liu等,2023 MathVista lu等。 lu等,2023 testmini logicvista Xiao等。 devSingh等。
TextVQA的两个示例(Singh等,2019)Singh等,2019
由于数据集的重点是图像中存在的文本,因此许多图像是广告牌,白板或交通标志之类的东西。总共有28,408张来自OpenImages数据集的图像,与它们相关的45,336个问题,需要阅读和推理图像中的文本。对于每个问题,注释者提供了10个基础真理答案。openImages
docvqa 火车 验证测试
示例来自docvqa的问答对(Mathew等,2020)