GIE-Bench:面向文本引导图像编辑的接地评估

使用自然语言指令编辑图像已成为一种自然且富有表现力的修改视觉内容的方式;然而,评估此类模型的性能仍然具有挑战性。现有的评估方法通常依赖于 CLIP 等图像文本相似度度量,但缺乏精度。在这项工作中,我们引入了一个新的基准,旨在以更扎实的方式评估文本引导图像编辑模型,沿着两个关键维度:(i)功能正确性,通过自动生成的多项选择题进行评估,以验证预期的更改是否成功......

来源:Apple机器学习研究

使用自然语言指令编辑图像已成为一种自然且富有表现力的修改视觉内容的方式;然而,评估此类模型的性能仍然具有挑战性。现有的评估方法通常依赖于 CLIP 等图像文本相似度度量,但缺乏精度。在这项工作中,我们引入了一个新的基准,旨在以更扎实的方式评估文本引导图像编辑模型,沿着两个关键维度:(i)功能正确性,通过自动生成的多项选择题进行评估,以验证预期的更改是否成功应用; (ii) 图像内容保留,使用对象感知遮蔽技术和保留评分确保图像的非目标区域保持视觉一致。该基准包括 20 个不同内容类别的 1000 多个高质量编辑示例,每个示例都附有详细的编辑说明、评估问题和空间对象蒙版。我们进行了一项大规模研究,将文本引导图像编辑领域的最新旗舰产品 GPT-Image-1 与几种最先进的编辑模型进行比较,并根据人类评分验证我们的自动指标。结果表明,GPT-Image-1 在指令跟踪准确性方面领先,但经常过度修改不相关的图像区域,突出了当前模型行为的关键权衡。 GIE-Bench 提供了一个可扩展、可重复的框架,用于推进对文本引导图像编辑进行更准确的评估。