Revisit Large-Scale Image–Caption Data in Pre-training Multimodal Foundation Models
多模式模型的最新进展突出了改写字幕对提高性能的价值,但仍然存在关键挑战。值得注意的是,综合标题的作用及其与原始网络爬行的AltTexts在预训练中的相互作用尚不清楚。此外,不同的多模式基础模型可能对特定标题格式具有不同的偏好,而研究每个基础模型的最佳字幕的努力仍然有限。在这项工作中,我们介绍了一种新颖,可控且可扩展的字幕管道,该管道产生了不同的字幕格式……