详细内容或原文请订阅后点击阅览
UniGen-1.5:通过强化学习中的奖励统一增强图像生成和编辑
我们推出 UniGen-1.5,这是一种用于高级图像理解、生成和编辑的统一多模态大语言模型 (MLLM)。在UniGen的基础上,我们全面增强了模型架构和训练流程,以增强图像理解和生成能力,同时释放强大的图像编辑能力。特别是,我们提出了一种统一的强化学习(RL)策略,通过共享奖励模型共同改进图像生成和图像编辑。为了进一步增强图像编辑性能,我们提出了一个轻型编辑指令对齐阶段......
来源:Apple机器学习研究我们推出 UniGen-1.5,这是一种用于高级图像理解、生成和编辑的统一多模态大语言模型 (MLLM)。在UniGen的基础上,我们全面增强了模型架构和训练流程,以增强图像理解和生成能力,同时释放强大的图像编辑能力。特别是,我们提出了一种统一的强化学习(RL)策略,通过共享奖励模型共同改进图像生成和图像编辑。为了进一步增强图像编辑性能,我们提出了一个轻型编辑指令对齐阶段,该阶段可以显着提高编辑指令的理解力,这对于 RL 训练的成功至关重要。实验结果表明 UniGen-1.5 表现出有竞争力的理解和生成性能。具体来说,UniGen-1.5 在 GenEval 和 ImgEdit 上取得了 0.89 和 4.31 的总分,超越了 BAGEL 等最先进的模型,并达到了与 GPT-Image-1 等专有模型相当的性能。
