重新访问预训练多模式模型中的大规模图像 - 捕获数据

多模式模型的最新进展突出了改写字幕对提高性能的价值,但仍然存在关键挑战。值得注意的是,综合标题的作用及其与原始网络爬行的AltTexts在预训练中的相互作用尚不清楚。此外,不同的多模式基础模型可能对特定标题格式具有不同的偏好,而研究每个基础模型的最佳字幕的努力仍然有限。在这项工作中,我们介绍了一种新颖,可控且可扩展的字幕管道,该管道产生了不同的字幕格式……

来源:Apple机器学习研究

多模式模型的最新进展突出了改写字幕对提高性能的价值,但仍然存在关键挑战。值得注意的是,综合标题的作用及其与原始网络爬行的AltTexts在预训练中的相互作用尚不清楚。此外,不同的多模式基础模型可能对特定标题格式具有不同的偏好,而研究每个基础模型的最佳字幕的努力仍然有限。在这项工作中,我们介绍了一种新颖,可控制且可扩展的字幕管道,该管道生成了针对各种多模型模型量身定制的各种字幕格式。通过关注简短的合成字幕(SSC)和描述性合成字幕(DSC)作为两个示例,我们会系统地研究它们的效果和与跨模型(例如剪辑,多峰LLMS和扩散模型)的效果和相互作用。我们的发现表明,将合成字幕与alttexts结合使用的混合方法可以改善对齐和性能,每个模型都显示出对特定字幕格式的偏爱。通过全面的分析,我们的工作为优化字幕策略提供了宝贵的见解,并推进了多模式基础模型的预训练。