CtrlSynth关键词检索结果

CtrlSynth:可控图像文本合成,实现数据高效的多模态学习

CtrlSynth: Controllable Image-Text Synthesis for Data-Efficient Multimodal Learning

预训练稳健的视觉或多模态基础模型(例如 CLIP)依赖于大规模数据集,这些数据集可能存在噪声、可能错位且具有长尾分布。先前的研究已显示出通过生成合成样本来扩充数据集的良好结果。但是,它们仅支持特定领域的临时用例(例如,仅支持图像或文本,但不能同时支持两者),并且由于缺乏对合成过程的细粒度控制,数据多样性有限。在本文中,我们设计了一个可控的图像文本合成管道 CtrlSynth,用于数据高效且稳健的……