多模态评估基准概况

探索十个多模态数据集和基准的主要特征,以评估多模态模型的性能。

来源:Clarifai博客 | 实际应用中的人工智能

简介

随着大语言模型(LLMS)领域的巨大进步,可以处理多模式输入的模型最近已成为该领域的最前沿。这些模型可以将文本和图像作为输入,有时也可以作为视频或语音等其他方式。

多模型模型在评估中带来了独特的挑战。在此博客文章中,我们将查看一些多式联模数据集,这些数据集可用于评估此类模型的性能,其中大多数是针对视觉问题答案(VQA)的模型,其中需要使用图像中的信息来回答问题。

多模式数据集的景观庞大且不断增长,基准的重点是不同的感知和推理功能,数据源和应用程序。这里的数据集列表绝不是详尽无遗的。我们将简要描述十个多模式数据集和基准测试的关键特征,并概述该空间中的一些关键趋势。

多模式数据集

textvqa

可以评估通才多模型模型的视力语言任务不同。这样的任务之一是光学特征识别(OCR)和基于图像中存在的文本回答问题。一个评估此类能力的数据集是TextVQA,这是Singh等人于2019年发布的数据集。

Singh等。 TextVQA的两个示例(Singh等,2019) Singh等,2019 由于数据集的重点是图像中存在的文本,因此许多图像是广告牌,白板或交通标志之类的东西。总共有28,408张来自OpenImages数据集的图像,与它们相关的45,336个问题,需要阅读和推理图像中的文本。对于每个问题,注释者提供了10个基础真理答案。 openImages docvqa 火车 验证 测试 示例来自docvqa的问答对(Mathew等,2020) Mathew等,2020 ocrbench Liu等。 Liu等,2023 MathVista lu等。 lu等,2023 testmini logicvista Xiao等。 dev

Singh等。

TextVQA的两个示例(Singh等,2019)

Singh等,2019

由于数据集的重点是图像中存在的文本,因此许多图像是广告牌,白板或交通标志之类的东西。总共有28,408张来自OpenImages数据集的图像,与它们相关的45,336个问题,需要阅读和推理图像中的文本。对于每个问题,注释者提供了10个基础真理答案。

openImages

docvqa 火车 验证

测试

示例来自docvqa的问答对(Mathew等,2020)

Mathew等,2020

ocrbench Liu等。 Liu等,2023 MathVista lu等。 lu等,2023 testmini logicvista Xiao等。 dev

Liu等。

Liu等,2023 MathVista lu等。 lu等,2023 testmini logicvista Xiao等。 dev Liu等,2023 MathVista

lu等。

lu等,2023 testminilogicvistaXiao等。 devXiao等。dev