VQAScore:评估和改进视觉语言生成模型

简介 文本到图像/视频模型(如 Midjourney、Imagen3、Stable Diffusion 和 Sora)可以根据自然语言提示生成美观、逼真的视觉效果,例如,给定“几只巨大的猛犸象走近,穿过一片雪地草地……”,Sora 会生成:但我们如何知道这些模型是否生成了我们想要的东西?例如,如果提示是“棕色的狗在树周围追逐黑色的狗”,我们如何判断模型显示的是狗“在树周围追逐”而不是“在后院玩耍”?更一般地说,我们应该如何评估这些生成模型?虽然人类可以轻松判断生成的图像是否与提示一致,但大规模的人工评估成本高昂。为了解决这个问题,我们引入了一个新的评估指标 (VQAScore) 和基准数据集 (GenAI-Bench) [Lin et al., ECCV 2024],用于自动评估文本到视觉生成模型。我们的评估框架最近被 Google Deepmind 用来评估他们的 Imagen3 模型!背景虽然最先进的文本到视觉模型在简单提示上表现良好,但它们在涉及多个对象并需要否定等高阶推理的复杂提示上却举步维艰。最近的模型如 DALL-E 3 [Betker et al., OpenAI 2023] 和 Stable Diffusion [Esser et al., Stability AI 2024] 通过在更高质量的图像文本上进行训练来解决这个问题 [...]

来源:ΑΙhub

作者:Zhiqiu Lin

作者:Zhiqiu Lin Zhiqiu Lin

简介

简介

文本转图像/视频模型(如 Midjourney、Imagen3、Stable Diffusion 和 Sora)可以根据自然语言提示生成美观、逼真的视觉效果,例如,给定“几头巨大的猛犸象走近,穿过一片雪地草地……”,Sora 会生成:

几头巨大的猛犸象走近,穿过一片雪地草地……

但我们如何知道这些模型是否生成了我们想要的?例如,如果提示是“棕色的狗在树周围追逐黑色的狗”,我们如何判断模型显示的是狗“在树周围追逐”而不是“在后院玩耍”?更一般地说,我们应该如何评估这些生成模型?虽然人类可以轻松判断生成的图像是否与提示一致,但大规模的人工评估成本高昂。为了解决这个问题,我们引入了一个新的评估指标(VQAScore)和基准数据集(GenAI-Bench)[Lin et al.,ECCV 2024],用于自动评估文本到视觉的生成模型。我们的评估框架最近被 Google Deepmind 用于评估他们的 Imagen3 模型!

棕色的狗在树周围追逐黑色的狗 在树周围追逐 在后院玩耍 我们应该如何评估这些生成模型? VQAScore GenAI-Bench [Lin et al., ECCV 2024] Imagen3 模型
我们引入了 VQAScore [Lin et al., ECCV 2024] — 一种简单但功能强大的指标,用于评估最先进的生成模型,例如 DALL-E 3、Midjourney 和 Stable Diffusion (SD-XL)。VQAScore 与人类判断更加接近,并且在从我们的 GenAI-Bench [Li et al., CVPR 2024] 中的专业设计师收集的具有挑战性的构图提示上,其表现明显优于流行的 CLIPScore [Hessel et al., 2021]。
VQAScore [Lin 等人,ECCV 2024] Hessel 等人,2021 GenAI-Bench Li 等人,CVPR 2024

背景

背景 Betker 等人,OpenAI 2023 Esser 等人,Stability AI 2024 Raffel 等人,JMLR 2020 Zhuang 等人,CVPR 2018 Radford 等人,OpenAI 2021 Hessel 等人,EMNLP 2021 LPIPS 答案