Loading...
机构名称:
¥ 1.0

多模式生成型AI通常涉及在另一种模态中给定输入给定的图像或文本响应。图像文本相关性的评估对于衡量响应质量或对候选响应的排名至关重要。在二元相关性评估中,即,“相关”与“不相关”是一个基本问题。但是,考虑到文本具有多种格式,相关性的定义在不同的情况下有所不同,这是一项具有挑战性的任务。我们发现,多模式的大型语言模型(MLLM)是构建此类评估者的理想选择,因为它们可以灵活地处理复杂的文本格式并掌握适当的任务信息。在本文中,我们介绍了Llava-re,这是与MLLM进行二进制图像文本相关性评估的首次尝试。它遵循LLAVA体系结构,并采用详细的任务指令和多模式IN上下文样本。此外,我们提出了一个新型的二进制相关数据集,该数据集涵盖了各种任务。实验结果验证了我们框架的有效性。

llava-re:具有多模式大语模型

llava-re:具有多模式大语模型PDF文件第1页

llava-re:具有多模式大语模型PDF文件第2页

llava-re:具有多模式大语模型PDF文件第3页

llava-re:具有多模式大语模型PDF文件第4页

llava-re:具有多模式大语模型PDF文件第5页

相关文件推荐