ETVA:通过细粒度生成和回答

精确评估文本提示和生成视频之间的语义一致性仍然是文本到视频(T2V)一代的挑战。现有的文本到视频对齐指标(例如夹克)仅产生粗粒的分数,而无需细粒度的细节细节,无法与人类偏好保持一致。为了解决这一限制,我们提出了ETVA,这是一种通过细粒度的问题产生和回答的新颖的文本到视频对齐方式的评估方法。首先,一个多代理系统解析提示进入语义场景图以生成原子问题。然后,我们设计了一个知识提升的……

来源:Apple机器学习研究

精确评估文本提示和生成视频之间的语义一致性仍然是文本到视频(T2V)一代的挑战。现有的文本到视频对齐指标(例如夹克)仅产生粗粒的分数,而无需细粒度的细节细节,无法与人类偏好保持一致。为了解决这一限制,我们提出了ETVA,这是一种通过细粒度的问题产生和回答的新颖的文本到视频对齐方式的评估方法。首先,一个多代理系统解析提示进入语义场景图以生成原子问题。然后,我们为问题回答设计了一个知识增强的多阶段推理框架,其中辅助LLM首先检索相关的常识知识(例如物理定律),然后通过多阶段的推理机制来回答生成的问题。广泛的实验表明,ETVA的相关系数为58.47,与仅达到31.0的现有指标相比,与人类判断的相关性更高。我们还构建了一个专门为文本到视频对齐评估而设计的综合基准,其中包含2K多样化的提示和12K原子问题,涉及10个类别。通过对15个现有文本对视频模型的系统评估,我们确定了它们的关键功能和局限性,为下一代T2V生成铺平了道路。所有代码和数据集将很快公开可用。

    **在Apple†中国伦敦大学完成的工作
  • **在Apple
  • †中国伦太阳大学