详细内容或原文请订阅后点击阅览
CtrlSynth:可控图像文本合成,实现数据高效的多模态学习
预训练稳健的视觉或多模态基础模型(例如 CLIP)依赖于大规模数据集,这些数据集可能存在噪声、可能错位且具有长尾分布。先前的研究已显示出通过生成合成样本来扩充数据集的良好结果。但是,它们仅支持特定领域的临时用例(例如,仅支持图像或文本,但不能同时支持两者),并且由于缺乏对合成过程的细粒度控制,数据多样性有限。在本文中,我们设计了一个可控的图像文本合成管道 CtrlSynth,用于数据高效且稳健的……
来源:Apple机器学习研究请完成安全验证
这个请求似乎有些不寻常,因此我们需要确认您是人类。请按下并按钮完全绿色。谢谢您的合作!
按下按钮
如果您认为这是一个错误,请联系我们的支持团队。
支持团队208.72.153.241:6334E451-0376-45B1-881D-76BBA691