获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
摘要 - 非常重要的是,文本提示调整在调整对比的语言图像预训练(剪辑)模型中表现出了启示性能,以对自然图像质量评估。但是,这种单模式提示学习方法仅调节剪辑模型的语言分支。这还不足以使剪辑模型适应AI生成的图像质量评估(AGIQA),因为AGIS在视觉上与自然图像有所不同。此外,没有研究与AGIS相关的AGIS和用户输入文本提示之间的一致性,该提示与AGIS的感知质量相关,并未研究以指导AgiQA。在这封信中,我们提出了视觉语言一致性指导的多模式的迅速学习,以学习为clip-agiqa。具体来说,我们分别在剪辑模型的语言和视觉分支中介绍了可学习的文本和视觉提示。此外,我们设计了一个文本对象对齐质量预测任务,该任务的学习视觉一致性知识用于指导上述多模式提示的优化。对两个公共AGIQA数据集的实验结果表明,所提出的方法超过了最先进的质量评估模型。源代码可在https://github.com/junfu1995/clip-agiqa上找到。