粗粒的关键词检索结果

ETVA:通过细粒度生成和回答

ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering

精确评估文本提示和生成视频之间的语义一致性仍然是文本到视频(T2V)一代的挑战。现有的文本到视频对齐指标(例如夹克)仅产生粗粒的分数,而无需细粒度的细节细节,无法与人类偏好保持一致。为了解决这一限制,我们提出了ETVA,这是一种通过细粒度的问题产生和回答的新颖的文本到视频对齐方式的评估方法。首先,一个多代理系统解析提示进入语义场景图以生成原子问题。然后,我们设计了一个知识提升的……