European Conference on Computer Vision (ECCV) 2024
Apple 将在 9 月 29 日至 10 月 4 日在意大利米兰举行的欧洲计算机视觉会议 (ECCV) 上展示新研究成果。我们很荣幸再次赞助两年一度的会议,该会议汇集了 ML 和计算机视觉领域的科学和工业研究社区。以下是 Apple 参加 ECCV 2024 的概述。
VQAScore: Evaluating and improving vision-language generative models
简介 文本到图像/视频模型(如 Midjourney、Imagen3、Stable Diffusion 和 Sora)可以根据自然语言提示生成美观、逼真的视觉效果,例如,给定“几只巨大的猛犸象走近,穿过一片雪地草地……”,Sora 会生成:但我们如何知道这些模型是否生成了我们想要的东西?例如,如果提示是“棕色的狗在树周围追逐黑色的狗”,我们如何判断模型显示的是狗“在树周围追逐”而不是“在后院玩耍”?更一般地说,我们应该如何评估这些生成模型?虽然人类可以轻松判断生成的图像是否与提示一致,但大规模的人工评估成本高昂。为了解决这个问题,我们引入了一个新的评估指标 (VQAScore) 和基准数据集