Loading...
机构名称:
¥ 1.0

对比性语言图像预训练(剪辑),它擅长于跨领域和模态提取开放世界的表示,已成为各种愿景和多模式任务的基础。然而,最近的研究表明,剪辑具有严重的视觉缺陷,例如几乎无法区分方向,数量,颜色,结构等。这些视觉缺点还限制了剪辑上构建的多模式大语模型(MLLM)的感知能力。主要原因可能是由于缺乏文本的独特性和图像的多样性,用于训练剪辑的图像文本对固有地存在偏差。在这项工作中,我们为剪辑模型提供了一种简单的培训方法,该方法在很大程度上通过自我监督的扩散过程克服了其视觉缺陷。我们介绍了Diva,该Diva使用Di Flupusion模型作为vrip ssistant的v。具体来说,Diva利用文本到图像扩散模型的生成反馈来优化剪辑表示,仅具有图像(没有相应的文本)。我们证明,Diva提高了夹在具有挑战性的MMVP-VLM基准上的表现,该基准在很大程度上评估了细粒度的视觉能力(例如g。,3-7%↑),并在多模式理解和分割任务上增强了MLLM和视觉模型的性能。对29个图像分类和检索基准测试的广泛评估证实,我们的框架保留了夹子强的零击功能。该代码将在https://github.com/baaivision/diva上找到。

扩散反馈有助于剪辑查看更好的

扩散反馈有助于剪辑查看更好的PDF文件第1页

扩散反馈有助于剪辑查看更好的PDF文件第2页

扩散反馈有助于剪辑查看更好的PDF文件第3页

扩散反馈有助于剪辑查看更好的PDF文件第4页

扩散反馈有助于剪辑查看更好的PDF文件第5页

相关文件推荐

2016 年
¥1.0
2024 年
¥8.0
2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2023 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0
2022 年
¥4.0
2025 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2025 年
¥1.0
2024 年
¥10.0
2024 年
¥1.0
2025 年
¥1.0
2024 年
¥2.0
2025 年
¥1.0
2025 年
¥1.0
2024 年
¥5.0
2025 年
¥1.0
2024 年
¥18.0
2025 年
¥1.0
2025 年
¥1.0
2023 年
¥1.0
2025 年
¥1.0