详细内容或原文请订阅后点击阅览
Pico-Banana-400K:用于文本引导图像编辑的大规模数据集
多模态模型的最新进展展示了卓越的文本引导图像编辑功能,GPT-4o 和 Nano-Banana 等系统树立了新的基准。然而,由于缺乏根据真实图像构建的大规模、高质量且可公开访问的数据集,研究界的进展仍然受到限制。我们推出 Pico-Banana-400K,这是一个用于基于指令的图像编辑的综合 400K 图像数据集。我们的数据集是通过利用 Nano-Banana 从 OpenImages 集合中的真实照片生成不同的编辑对来构建的。有何区别......
来源:Apple机器学习研究多模态模型的最新进展展示了卓越的文本引导图像编辑功能,GPT-4o 和 Nano-Banana 等系统树立了新的基准。然而,由于缺乏根据真实图像构建的大规模、高质量且可公开访问的数据集,研究界的进展仍然受到限制。我们推出 Pico-Banana-400K,这是一个用于基于指令的图像编辑的综合 400K 图像数据集。我们的数据集是通过利用 Nano-Banana 从 OpenImages 集合中的真实照片生成不同的编辑对来构建的。Pico-Banana-400K 与以前的合成数据集的区别在于我们对质量和多样性的系统方法。我们采用细粒度的图像编辑分类法来确保编辑类型的全面覆盖,同时通过基于 MLLM 的质量评分和精心策划来保持精确的内容保留和指令忠实度。除了单轮编辑之外,Pico-Banana-400K 还可以研究复杂的编辑场景。该数据集包括三个专门的子集:(1)一个 72K 示例的多轮集合,用于研究连续修改的顺序编辑、推理和规划; (2) 用于一致性研究和奖励模型训练的 56K 示例偏好子集; (3)配对长短编辑指令,以培养指令重写和总结能力。通过提供这种大规模、高质量和任务丰富的资源,Pico-Banana-400K 为下一代文本引导图像编辑模型的训练和基准测试奠定了坚实的基础。
